誠ブログは2015年4月6日に「オルタナティブ・ブログ」になりました。
各ブロガーの新規エントリーは「オルタナティブ・ブログ」でご覧ください。
日本のビッグデータ報道は何か間違っていないか?
当ブログ「ビジネスライターという仕事」は、2015年4月6日から新しいURL「http://blogs.itmedia.co.jp/toppakoh/」 に移動しました。引き続きご愛読ください。
久しぶりに誠ブログに書いたので、勢いづいてもう1本書きます。今度は自分軸とは全く関係ないIT関連の記事。ビッグデータの話です。
ビッグデータをバズワード(この場合は一時の流行り言葉という意味で使っています)と捉える向きもあるようですが、僕はそんなことはないと思います。
それどころか、日本のビッグデータ報道を読む限りでは、むかーしからやっていたことだからです。
● ビッグデータはデータマイニングのことでいいのか?
というのは、ビッグデータに関する日本のネット媒体の記事は、データマイニングの話を書いているだけではと思えるものがほとんどだからです(あとは、テクノロジー的、たとえば最適のDBMSやディスクとか、アーキテクチャの解説とかぐらい)。
たとえば、こんな記事がそうです。
▼クックパッドの同時検索から見える意外な食生活、「らっきょう」の"相棒"は何?
http://itpro.nikkeibp.co.jp/article/Watcher/20130523/479185/?ST=bigdata&P=1
この記事の内容を批判するものではありません。この通りだと思いますし、ある種の人たちには役に立つ記事だとも思います(ただし、ビッグデータ関連の記事だと言わなければ)。
でも、これって1960年代に手法が開発され、80年代にウォルマート等の巨大流通業者が実践してきたデータマイニングとどう違うのか、僕にはさっぱり分かりません。
ウォルマートなどが実践してきたデータマイニングという手法は、一見関係のない商品の組み合わせを、大量のPOSデータを使って関連付けるというものでした。
有名なのは、ビールと紙おむつを同時に買う人が多いという話です(http://www.itmedia.co.jp/im/articles/0504/18/news086.html)。
これは都市伝説だという説もあり、ウォルマートは実際にはこの組み合わせのデータを活用していないという話もありますが、いずれにしろビールと紙おむつのように、思いもかけない関係をデータから発見して販促に役立てたという部分は本当のことでしょう。
さきほどのクックパッド関連の記事にしても昔からあることです。
こちらはPOSデータとは違い、検索キーワードの組み合わせから仮説を立てるという手法ですが、このようなことはネット販売をしている人たちは以前からやっていることです。
どのキーワードの組み合わせが何件検索されているかを教えてくれる(しかも無料で!)サービスは僕の知る限りでも4年前ぐらいにはありましたし、それをネットでビジネスをしている人たちならば、個人事業主レベルでも、SEOやPPC広告のために活用しています。
これは秘伝でも何でもなく、ネット販売のノウハウを書いた1,500円ぐらいの書籍に載っているようなことです。
● ビッグデータの本質とは?
たしかに、従来のリレーショナルデータベースのように演算的にデータを処理するのではなく、タグ付けされたデータを高速に関連付けるアーキテクチャが普及し、ディスクもCPUも高速になったという背景はあります(とはいえ、手法自体は全文検索エンジンといって、1990年代にはありました)。
これにより、より大量のデータがさらに高速で精密に扱えるようになった上、低価格にもなったので誰にでも使えるようになりました。その機運に乗じたのがビッグデータの流行ということなのでしょう。
しかしながら、どうもビッグデータの本質はそんなところにないような気がするのです。
そこで、"ビッグデータ 本質"というキーワードで検索したところ、興味深い記事を発見しました。
▼ビッグデータの本質は"量"ではなく"質"にある
http://it.impressbm.co.jp/e/2012/04/25/4284
※この記事を書いた記者の問題意識が僕と同じなのは偶然ですが、ずいぶん前からそう思っていた人がいることには脱帽ですし、また心強く感じました。
これはテラデータという会社(20世紀の昔から大量データを扱うソフト付きのハードを販売している会社です)への取材記事です。以下の引用部分が多分ビッグデータの本質をもっとも的確に語っています。
ビッグデータは"インタラクションデータ"と言い換えられる。トランザクションデータが生まれる過程で発生する詳細なデータのことだ。オンラインショップを想像してほしい。これまで企業が注目してきたのは、商品名や個数、金額や割引率などの購入データ。しかし、アプリケーションのログには消費者が購入に至るまでの経緯が、クリック1つひとつのレベルで記録されている。そうした粒度の細かいデータを有効活用することがビッグデータの本質だ。
要するに、今まで扱えなかったので捨ててきたような細かいデータも含めて活用するのがビッグデータの本質だというわけです。
よろしいでしょうか?
大量のPOSデータを捨てることなくしゃぶりつくしてきたのが流通業のマーケッターたちです。捨てるデータなどありません。
検索キーワードの組み合わせという最重要データを捨てるネット業者がどこにいるでしょうか?
2012年4月時点で、本場米国でも「実際には普及期の一歩手前といったところだ」(前掲記事)ということなので、日本での事例がまだほとんどないのは想像がつきます。
それで、むかーしからあるようなデータマイニングの事例に、それっぽいからいいだろうと安易に飛びつくのでしょうけど、記者たるもの本質をわきまえたうえで、それに則した事例を取材すべきではないでしょうか?
というような言葉は、細々とですが記者の仕事もしている自分に跳ね返ってくるのは覚悟の上で(自戒も込めて)申し上げたいと思う次第です。
なお、POSデータや検索キーワードの活用を称してビッグデータと言い続けるのなら、確かにバズワードとなってしまうでしょう。ただし、日本でもそのうち画期的な事例は出てくるでしょうから、そうはならないという予想は冒頭申し上げた通りです。