Google製のN-gramは、1〜7gramで26GB(しかも圧縮済みでの容量)。

(言及:Google Japan Blog: 大規模日本語 n-gram データの公開)
(過去:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう！(kanji2na＋morogram編、244万文字頻度付き))
(過去:「雑記/えもじならべあそび」における、全2,440,461文字についての１〜３文字連接頻度、表計算ドキュメント版。)
(過去:メモ。＠2007年03月17日)

　Googleの社員さん*1が、Webコンテンツを元に、かなり「ありえない」容量のN-gram解析済みデータを生成したようです。
　総文字数は「漢字かな交じりで」200億文字……って、うちで「漢字かな下しで」244万文字をN-gramに掛けるだけでも大変だったというのに、これは驚くべき数字としか言いようがないですね……。

　個人的には、これが「漢字かな交じりのままN-gramに掛けられた」もののみである点が、ちょっとだけもったいないなぁ……と感じました。
　分野によっては「漢字かな下しをしてからN-gramに掛けられた」ものが必要になる*2こともありますので。

　かな下しされていない以上は「かな系鍵盤配列・ローマ字鍵盤配列をふくむ行段系鍵盤配列・速記系鍵盤配列」を製作するためには使えないところが惜しい……のですが、逆に言えばこれはそのまま「漢直系鍵盤配列」には使えるデータである、とも言えそうですね。

　将来、この延長線上で

ひらがな1文字の出現頻度
ひらがな2文字の連接頻度
ひらがな3文字の連接頻度

あたりが公開されるとうれしいかも……という気はしますが、

著作権的な問題は引き続き存在する
MeCab(というかIPADIC)の変換精度による制約を受ける(?)

あたりから、これはさすがに難しいのかも……うーん。
　いずれにせよ、「Webのすべて(?)を対象にした調査」ができる時代が来た……というのは、なんだかすごくわくわくするものがあります。

*1:あるいは「MeCab」にかかわった方……というほうがいいのかもしれない

*2:確か神田さん(OASYSの設計者)が、

コンピュータ―知的「道具」考 (NHKブックス (478))

作者: 神田泰典
出版社/メーカー: 日本放送出版協会
発売日: 1985/04
メディア: 単行本
クリック: 36回
この商品を含むブログ (9件) を見る

か

考える道具―ワープロの創造と挑戦

作者: 古瀬幸広
出版社/メーカー: 青葉出版
発売日: 1990/02
メディア: 単行本
購入: 1人クリック: 14回
この商品を含むブログ (10件) を見る

で「使えるかな出現頻度データがほとんどないよ！」と叫んで(?)いた気が。そのわずか数年後には、渡辺さん(JIS X 6004の設計者)と坂村さん(TRONキーボードの設計者)が100万字クラス資料にめぐり合えたわけですが……もしも仮に、このお三方が全員そろって「200億文字クラスの【かな下しされた文字列の日本語N-gramデータ】」にめぐり合っていたら、もしかすると「よりよい日本語日常文入力用の文字配列」を作成できた可能性があったのかも！？……と、そんなことを考えてみたり。