大規模データ分析の普及
The Commoditization of Massive Data Analysis
http://radar.oreilly.com/2008/11/the-commoditization-of-massive.html
[抄訳]
<p>今まではリレーショナルデータベースとSQLでデータを扱っていた。Google の MapReduce やそのクローンである Hadoop などの新しい大規模データ処理は、まだ企業のIT担当者には受け入れられていないが、今後1~2年で変わるだろう。</p>
<p>我々は今、データ革命の入り口に立っている。多くのデジタルデータは今なお「手作り」である。しかし、データの自動生成「工場」の姿が見え始めている。ソフトウェアログ、UPCのスキャナ、RFID、GPS、動画や音声のフィード。今まで人間が成しえたデータ生成がちっぽけに見えるほどの大量のデータが生み出される。ディスク容量はもはや問題にはならない。データには価値があるとの信念もある。革命に残された最後の問題が、多くの人が使うことのできるデータ分析ソフトウェアの普及である。</p>
<p>今までは、多数のディスク、高速なネットワーク、数多くのCPU、Teradata のような高価なリレーショナルデータベースで処理していた。Google や Yahoo! は新しい手法を取り入れて、これまでにないスケールでデータを処理している。</p>
<p>SQL と MapReduce の境界はぼやけ始めている。Greenplum や Aster Data といった企業が、MapReduce をバックエンドにした SQLエンジンを喧伝している。Facebook 由来のオープンソースプロジェクト Hive は、Hadoop の上に SQLライクなプログラミング言語を乗せた。IBM もマイクロソフトも同様の研究をしている。</p>
<p>みんなどこへ向かっているのだろう? Hadoop の技術的利点はリレーショナルデータベースエンジンでも実現することができる。本当の挑戦は、可用性とデータインテグリティのトレードオフができるか、ということろにある。</p>
<p>MapReduce がデータ分析で重要なプログラミングインタフェースとなるならば、そのプログラミングインタフェースの標準化が行われるだろう。あるいは、MapRecude は低レベルすぎて多くのユーザを得るに至らず、その上位層である Hive や Yahoo! の Pig のレベルで標準化が行われるかもしれない。</p>
<p>興味深いのは、これらがデータ中心ウェブサービスやクラウドコンピューティングとどのような関わりを持つかである。クラウドの中で巨大な非公開データセットを処理するのだろうか? ペタバイトのデータをホスティング環境にどうやって持ち込むのだろうか? 巨大データの分析に必要な多数のコンピュータを、サービスプロバイダはどうやってコストに見合うように提供するのだろうか? まだ明確な答えは見えない。</p>
<p>並列プログラミングの題材として、Hadoop は大学教育でも取り入れられている。SQL に代表される宣言的プログラミング言語もコンピュータサイエンスの研究にルネッサンスをもたらした。マーケットの変化に加えて、技術の源泉たる教育も変化した。これは、次の数年間をかけて変化が起こることを示唆している。</p>