メモ。
(将来:Google製のN-gramは、1〜7gramで26GB(しかも圧縮済みでの容量)。)
スラッシュドット ジャパン | Google、大規模日本語データの公開を検討
Google: 大規模日本語データ公開に関する特別セッション
この2つを見てみたい気がします。
単字出現頻度・2字連接頻度・3字連接頻度あたりが公開されれば、日本語入力法を設計・評価する上で重要な資料となりそうですし。
2007年11月5日2:43:15追記。
半分は希望通り(というか予想通り)になった模様。
http://itpro.nikkeibp.co.jp/article/NEWS/20071101/286215/
http://googlejapan.blogspot.com/2007/11/n-gram.html
http://www.gsk.or.jp/catalog/GSK2007-C/catalog.html
……ってゆーか、「大規模データ」という時点でN-gramぐらいしかないとは思うのですが^^;。