DeepDyve - Deep Web を検索する

従来型のWeb検索エンジンは、インターネット世界の0.2%(DeepDyve社の発表)しかインデックス化していないという。残りの99.8%は、会員限定のクローズドなコンテンツであるため、あるいは他のサイトからのリンクが少ないために検索エンジンにクロールされずにいる。これを Deep Web (ディープ・ウェブ)と呼ぶ。



<p>DeepDyve は、コンテンツの提供者と組んでこの Deep Web を検索できるようにした。コンテンツ提供者側にとって、コンテンツへのトラフィックが増えるメリットがある。</p>

<p>現在は、無料会員登録ユーザーと、月45ドルの有料会員の2つが設けてある。コンテンツそのものは有料であるようだ。iTunesのようなコンテンツ販売ビジネスを目指している模様。</p>

<p>従来、このような有料のクローズドコンテンツは、それぞれのサイトで販売されてきた。検索方法もサイト毎にバラバラだし、サイト横断的に検索することもできない。その窓口を一つにしたもの、つまりクローズドコンテンツのポータルサイト的なものということなのだろう。音楽の世界ではiTunesがその座を射止めたが、科学論文や特許の分野で同様の立場を得るつもりらしい。</p>

<p>コンテンツをインターネットで配信する場合、一昔前は、企業は有料モデルを展開していた。しかし、優れた無料コンテンツがあふれる中で有料コンテンツの相対的優位性が薄れ、そして検索エンジンがオープンコンテンツのみを対象にしているため、ポータルや検索エンジンから自社サイトの無料コンテンツに誘導し、広告モデルでの収益を目指すのが現在の主流となった。しかし、検索エンジンがDeep Webをも対象にすることで、再び有料コンテンツの配信によって収益を得るビジネスモデルが復活可能になるかもしれない。</p>

<p>技術的には、KeyPhrase というゲノム解析由来のアルゴリズムによる検索が特徴。KeyPhrase の詳細は不明だが、バイオインフォマティクスでは、遺伝子配列の断片から、それに類似した遺伝子配列を検索するというホモロジー検索が一般的に行われている。機能が未知の配列が、機能が既知の配列に似ているならば、未知の配列の機能は既知の配列の機能に似ていると推測できる。</p>

<p>入力となる遺伝子配列は、ウェブ検索エンジンへの入力キーワードに比べればはるかに長い。バイオインフォマティクスの分野では、長年このような技術を磨いてきた。そういえば、『集合知プログラミング (Programming Collective Intelligence)』の Toby Segaran も、大学はMITのコンピュータサイエンス学科であったが、卒業後に興した会社はバイオ関係であった。Webの世界、集合知、バイオインフォマティクスを結びつけると、そこには宝が眠っていそうだ。</p>

<p>DeepDyve は 2008/11/11 に Infovell から名前を変えたばかり。より解り易い名前になったといえる。</p>

<p>
ゲノミクス研究から誕生、「ディープ・ウェブ」を検索するエンジン『DeepDyve』

http://wiredvision.jp/news/200811/2008111322.html



Deep Dyve
http://www.deepdyve.com/



Infovell Changes Name to DeepDyve, Rolls Out Consumer Search Engine for the Deep Web

http://biz.yahoo.com/prnews/081111/aqtu059.html

</p>

Apache Mahout - 情報検索、機械学習の研究の再利用性を高める

Opening up Academic Research on IR and Machine Learning

http://lucene.grantingersoll.com/2008/09/18/opening-up-academic-research-on-ir-and-machine-learning/


<p>Apache Mahout の core committer で Taming Text 著者の、Grant Ingersoll のブログエントリ。</p>

<p>研究論文だけが出ても、他の人がそれを利用できないんじゃ意味ないよね。論文と一緒にソフトウェアもなきゃだめだよ。Mahout はそのための場だよ。スケーラビリティとかメンテナンスというわずらわしい作業は Mahout が面倒みるから、研究者はアイデアに集中できるよ。という趣旨。</p>

<p>教授は新しい予算がつけばそっちにいくし、学生は PhD がとれればそれでいいし、資金を出した役人も次のプロジェクトに動くので、ドキュメントもないソフトは誰も使えず、放っておかれるのみ、という皮肉も。</p>

<p>Mahout は「マハウト」と発音しておこう。心配な方はこちらで確認。

http://dictionary.reference.com/browse/mahout
</p>

<p>
Taming Text は 2009年の半ばに発刊予定。延期された影響で $15 のクーポンをもらえた。

http://www.manning.com/ingersoll/
</p>

森に自家発電センサーネットワークを張り巡らす


Preventing forest fires with tree power

http://web.mit.edu/newsoffice/2008/trees-0923.html



<p>木に温度・湿度センサーをつけて無線ネットワークで結び、しかも電気は木が発生する微弱な電力でまかなうという実用目前の研究。ネットワークの構成には 1エーカー(64メートル四方)中 4本の木に取り付ける必要がある。東京ドーム(11.5エーカー)の広さなら 46本に相当する。</p>

<p>電力は木と土壌の pH の差によって生まれ、市販のバッテリーを少しずつ充電する。この電力で、一日に4回の温度・湿度データの収集ができる。火事の際はすぐに知らせる。木が非常に微弱な電気を発生することは昔から知られていたが、その仕組みも利用方法も未開拓だったという。</p>

<p>ワイアレス・センサー・ネットワークの開発は Voltree Power (http://voltreepower.com) が行った。国土防衛、環境・農業のための計測、天候の研究を主な用途としている。</p>

yooreeka - Algorithms of the Intelligent Web のソースコードが Google Code に

Algorithms of the Intelligent Web のソースコードが、LGPG のライブラリとして Google Code に登場した。yooreeka はユーレカと発音してよいのだろう。英語の eureka のスペルをいじったもので、元はギリシア語。日本語では「我、発見せり」と訳される。データの山から集合知を引き出すライブラリとして、いい名前だ。



http://code.google.com/p/yooreeka/

http://www.manning-sandbox.com/thread.jspa?threadID=26417&tstart=0

Hadoop本が O'Reilly の Rough Cuts に登場

Apache Hadoop の本が Safari のドラフト版書籍 Rough Cuts に登場した。Hadoop は、Google が crawler のインデックス作成に用いている大量データシステム基盤、Google File System (GFS) と MapReduce のオープンソース実装で、現在は Yahoo! のインデックス作成にも使われている。

http://safari.oreilly.com/9780596521974



<p>Hadoop は、Apache Lucene の開発者 Doug Cutting が書いたもの。彼らの見積もりによれば、10億ページをインデックス化するには、ハードだけでも5000万円するが、それでも検索エンジンアルゴリズムの民主化のためには、やる価値のある仕事だということで始まった。Doug は後に Yahoo! に雇われ、そして Yahoo! は 2008年2月、実働環境下で Apache Hadoop を動かしていることを発表した
その発表によると、Yahoo! の Hadoop cluster は
<ul>
<li>10,000 core の linux cluster</li>
<li>1兆のリンク</li>
<li>圧縮状態で 300TB のデータ</li>
<li>5ペタバイトのディスク (ペタはテラの次: MB → GB → TB → PB)</li>
</ul>
のデータを処理している。以前のシステムに比べ、66%の時間短縮が実現できているという。
</p>

<p>規模の大小はあれ、同様のことが、中小企業や大学の研究室はおろか、一個人でも Amazon EC2 を使えば実現できてしまう。MapReduce 自体は、ウェブのインデックス作成に特化したものではなく、大量のデータを分散処理するための枠組みだから、応用範囲は広い。用途が見えてきて利用が広がれば、Hadoop cluster を有料で貸すサービスも出現するかもしれない。</p>