ストップワードはもはや不要?
Stop Me If You Think You've Seen This Word Before
http://www.codinghorror.com/blog/archives/001186.html
<p>ストップワードの数は実装によって異なる。例えば Oracle の全文検索では 100弱、SQL Server では 150ほど、そして MySQL では 600語ほどがストップワードに指定されている。もちろん、ストップワードの数は利用者が変えることができる。</p>
<p>しかし、世の中にはストップワードが検索語の一部として重要な役割を果たすことがある。例えばハムレットの “to be or not to be” をストップワード除去処理したら、何も残らない。”the matrix” を検索しようとする人は、映画のマトリックスを検索しているのであって、数学の “matrix” を知りたいわけではない。</p>
<p>翻って Google はどうしているのか? もはや古典的なストップワードは使っていないようだ。ストップワードは90年代初頭のマシンリソースで必要なものだったが、今はストップワードの力を借りなくても検索ができるようになった。</p>