Google製のN-gramは、1〜7gramで26GB(しかも圧縮済みでの容量)。
(言及:Google Japan Blog: 大規模日本語 n-gram データの公開)
(過去:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き))
(過去:「雑記/えもじならべあそび」における、全2,440,461文字についての1〜3文字連接頻度、表計算ドキュメント版。)
(過去:メモ。@2007年03月17日)
Googleの社員さん*1が、Webコンテンツを元に、かなり「ありえない」容量のN-gram解析済みデータを生成したようです。
総文字数は「漢字かな交じりで」200億文字……って、うちで「漢字かな下しで」244万文字をN-gramに掛けるだけでも大変だったというのに、これは驚くべき数字としか言いようがないですね……。
個人的には、これが「漢字かな交じりのままN-gramに掛けられた」もののみである点が、ちょっとだけもったいないなぁ……と感じました。
分野によっては「漢字かな下しをしてからN-gramに掛けられた」ものが必要になる*2こともありますので。
かな下しされていない以上は「かな系鍵盤配列・ローマ字鍵盤配列をふくむ行段系鍵盤配列・速記系鍵盤配列」を製作するためには使えないところが惜しい……のですが、逆に言えばこれはそのまま「漢直系鍵盤配列」には使えるデータである、とも言えそうですね。
将来、この延長線上で
- ひらがな1文字の出現頻度
- ひらがな2文字の連接頻度
- ひらがな3文字の連接頻度
あたりが公開されるとうれしいかも……という気はしますが、
あたりから、これはさすがに難しいのかも……うーん。
いずれにせよ、「Webのすべて(?)を対象にした調査」ができる時代が来た……というのは、なんだかすごくわくわくするものがあります。
*1:あるいは「MeCab」にかかわった方……というほうがいいのかもしれない
*2:確か神田さん(OASYSの設計者)が、 コンピュータ―知的「道具」考 (NHKブックス (478))