« SEって何?(3) | メイン | セミナー案内 »

クソデータを扱って何がビッグデータだ

ちょっと過激で品のない表現で申し訳ありません。最近とみにビックデータという言葉がもてはやされて、またもやバズワードかなとも思うのですが、単純にビックデータというもの自体は別段食ってかかるようなものでもなく大量のデータというだけのことかもしれない。要は、どんな質と量のデータでそれをどうやって活用するのかといったことが問題なわけです。

しかし、どれだけの容量からがビックデータなのか、非構造化データを扱うからそうなのかといた定義もないと思うのだが、Web上で毎日せっせと生成されるデータを個人的なサービスに活用するという意味はあると思うのですが、おそらく普通の会社でビッグデータを扱うようなことは少ないように見受けられるわけで、なぜそんなに熱くなるのかがわからない。ITベンダーが売りものがなくなって、最近はデカ女が売れてますよとか言ってるキャバクラ(そんなところはないか)の呼び込みよろしく叫んでいるようです。

データの活用、すなわち多くのデータを分類・解析して有用な情報を引き出すのは非常に難しくて、重要なのはその有用性に結びつくような意味のあるデータなのかどうかである。クソデータを扱っても何もならない。クソデータからはクソの結果しか生まれないのはまだしも、下手すると害悪となってしまうこともある。誤った判断をもたらす危険をも孕んでいることに注意しなくてはいけないのである。

クソデータには3つの意味がある。「ミソクソ」、「消化したあとのカス」、「どうにも食えない」である。そもそもビックデータというようになったのは、従来のように構造化されてリレーショナルデータベースに収まるようなもの以外のデータがあふれてきたからである。ということは、とりあえずミソもクソもなんでもいいからバケツに放り込んでおけという類である。

クソっていうのは、最初は食物であって、それが吸収されて残ったカスである。企業だって動くのにエネルギーすなわち食料が要るから、それを体内に入れて消費してお金を生み出すわけで、この場合の食料というのは「情報」とも言える。そうした情報を使って産み出された結果が実績データである。ある意味クソというのはビジネス活動の成果とも言える。便秘になったり下痢したりするのは活動の結果がどうであったかを意味するのである。だからあえて言うとクソを分析してもあとの祭りだということである。どんなクソになるのかをもっと早いうちに診断しておかなくてはいけなくて、食欲不振だとか、胃の調子が悪いなんていうのをいち早くチェックする方が大事なのである。

クソは食えませんねえ。要するに食えないようなデータをいくら綿密に解析してもしょうがないわけで、最初に言ったように、食えないようなものも含めてなんでもいいからデータを溜め込めばいいなんてことをしてはいけないのだ。それを何とかミソにまで引き上げるにはどうしたらよいかは、データに生成過程を紐づけておくことが必要ではないかと思うのである。どうやって生成されたかがわかるようにすることである。そうすれば、クソにも意味があることになるからである。

下品なたとえで気分が悪くなったかもしれませんが、データ解析というのは取得・収集段階のフィルタリングとか、分析前のクラスタリングといったことが重要で、そうした前処理をきちんとやることでクソデータ化を防ぐといった取り組みもしてみたらいかがでしょうか。これは、いつも言っているように正規化されたプロセスをきちんと管理することに他ならないのです。
 

 

コメント (2)

はぶ:

ビッチデータと呼びますか(^^)

あべ@水道橋:

http://www.ringolab.com/note/daiya/2013/04/post-1780.html
この辺りの話と絡めて考えると面白いですね。

About

2013年4月 3日 11:24に投稿されたエントリーのページです。

ひとつ前の投稿は「SEって何?(3)」です。

次の投稿は「セミナー案内」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

Powered by
Movable Type