Apache Hadoop の本が Safari のドラフト版書籍 Rough Cuts に登場した。Hadoop は、Google が crawler のインデックス作成に用いている大量データシステム基盤、Google File System (GFS) と MapReduce のオープンソース実装で、現在は Yahoo! のインデックス作成にも使われている。

http://safari.oreilly.com/9780596521974



<p>Hadoop は、Apache Lucene の開発者 Doug Cutting が書いたもの。彼らの見積もりによれば、10億ページをインデックス化するには、ハードだけでも5000万円するが、それでも検索エンジンアルゴリズムの民主化のためには、やる価値のある仕事だということで始まった。Doug は後に Yahoo! に雇われ、そして Yahoo! は 2008年2月、実働環境下で Apache Hadoop を動かしていることを発表した
その発表によると、Yahoo! の Hadoop cluster は
<ul>
<li>10,000 core の linux cluster</li>
<li>1兆のリンク</li>
<li>圧縮状態で 300TB のデータ</li>
<li>5ペタバイトのディスク (ペタはテラの次: MB → GB → TB → PB)</li>
</ul>
のデータを処理している。以前のシステムに比べ、66%の時間短縮が実現できているという。
</p>

<p>規模の大小はあれ、同様のことが、中小企業や大学の研究室はおろか、一個人でも Amazon EC2 を使えば実現できてしまう。MapReduce 自体は、ウェブのインデックス作成に特化したものではなく、大量のデータを分散処理するための枠組みだから、応用範囲は広い。用途が見えてきて利用が広がれば、Hadoop cluster を有料で貸すサービスも出現するかもしれない。</p>