メモ。

(将来:Google製のN-gramは、1〜7gramで26GB(しかも圧縮済みでの容量)。)
 スラッシュドット ジャパン | Google、大規模日本語データの公開を検討
 Google: 大規模日本語データ公開に関する特別セッション

  • kanji2naでかな下し」してから「morogramでNグラム分析」した結果。
  • 「かな下しをせず」漢字かな交じりのまま「morogramでNグラム分析」した結果。

 この2つを見てみたい気がします。
 単字出現頻度・2字連接頻度・3字連接頻度あたりが公開されれば、日本語入力法を設計・評価する上で重要な資料となりそうですし。

2007年11月5日2:43:15追記。

 半分は希望通り(というか予想通り)になった模様。
 http://itpro.nikkeibp.co.jp/article/NEWS/20071101/286215/
 http://googlejapan.blogspot.com/2007/11/n-gram.html
 http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html
 ……ってゆーか、「大規模データ」という時点でN-gramぐらいしかないとは思うのですが^^;。