IBM alphaworks が提供しているデータとグラフの共有サイト Many Eyes で遊んでみた。



<p>
『我輩は猫である』のタグクラウド

<img style=”display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 320px; height: 130px;” src=”http://3.1415.jp/sites/default/files/blogger_importer/s320/ManyEyes_%25E6%2588%2591%25E8%25BC%25A9%25E3%2581%25AF%25E7%258C%25AB%25E3%2581%25A7%25E3%2581%2582%25E3%2582%258B_TagCloud_0.png” border=”0” alt=”“id=”BLOGGER_PHOTO_ID_5272152286438850306” />
</p>

<p>
『我輩は猫である』のワードツリー

<img style=”display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;width: 320px; height: 174px;” src=”http://3.1415.jp/sites/default/files/blogger_importer/s320/ManyEyes_%25E6%2588%2591%25E8%25BC%25A9%25E3%2581%25AF%25E7%258C%25AB%25E3%2581%25A7%25E3%2581%2582%25E3%2582%258B_WordTree_0.png” border=”0” alt=”“id=”BLOGGER_PHOTO_ID_5272152446972636882” />
</p>

<p>他の人がアップロードしたデータに対して、多様な visualization を行い、その図を共有することができる。データと分析結果を共有して、大勢の人の目が入れば、一人では見えなかったものも見えるようになりますよ、というのがサービスの趣旨。</p>

<p>エクセルのような定型データと、フリーテキストを扱うことが出来る。ただし、日本語のフリーテキストには対応していない。上記の図は、若干の手間をかけてある。</p>

<ol>
<li>
日本語テキストをどこかから入手する。今回は、青空文庫の『我輩は猫である』を用いた。

http://www.aozora.gr.jp/cards/000148/card789.html
</li>

<li>
ルビが邪魔なので削除する。テキストエディタで、正規表現で置換した
<pre class="prettyprint">
s/《[^《]》//
s/|//
</pre>
</li>

<li>
入力者注も削除する。
<pre class="prettyprint">
s/[#[^[]
]//
</pre>
</li>

<li>
茶筌にかけて分かち書きする。
<pre class="prettyprint">
$ chasen -F”%m “ < ~/neko.txt > neko_splitted.txt
</pre>
</li>

<li>
「てをには」を削除する。というよりも、ひらがな一文字を全て削除する。スペースに挟まれていない場合に除去されないので、下記の置換を三回行う。
<pre class="prettyprint">
s/\s[あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをんがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽ]\s//
</pre>
</li>

<li>
句読点と記号を削除する。
<pre class="prettyprint">
s/[、。…「」―?]//
</pre>
</li>
</ol>