Google製のN-gramは、1〜7gramで26GB(しかも圧縮済みでの容量)。

(言及:Google Japan Blog: 大規模日本語 n-gram データの公開)
(過去:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き))
(過去:「雑記/えもじならべあそび」における、全2,440,461文字についての1〜3文字連接頻度、表計算ドキュメント版。)
(過去:メモ。@2007年03月17日)


 Googleの社員さん*1が、Webコンテンツを元に、かなり「ありえない」容量のN-gram解析済みデータを生成したようです。
 総文字数は「漢字かな交じりで」200億文字……って、うちで「漢字かな下しで」244万文字をN-gramに掛けるだけでも大変だったというのに、これは驚くべき数字としか言いようがないですね……。


 個人的には、これが「漢字かな交じりのままN-gramに掛けられた」もののみである点が、ちょっとだけもったいないなぁ……と感じました。
 分野によっては「漢字かな下しをしてからN-gramに掛けられた」ものが必要になる*2こともありますので。


 かな下しされていない以上は「かな系鍵盤配列・ローマ字鍵盤配列をふくむ行段系鍵盤配列・速記系鍵盤配列」を製作するためには使えないところが惜しい……のですが、逆に言えばこれはそのまま「漢直系鍵盤配列」には使えるデータである、とも言えそうですね。


 将来、この延長線上で

  • ひらがな1文字の出現頻度
  • ひらがな2文字の連接頻度
  • ひらがな3文字の連接頻度

あたりが公開されるとうれしいかも……という気はしますが、

  • 著作権的な問題は引き続き存在する
  • MeCab(というかIPADIC)の変換精度による制約を受ける(?)

あたりから、これはさすがに難しいのかも……うーん。
 いずれにせよ、「Webのすべて(?)を対象にした調査」ができる時代が来た……というのは、なんだかすごくわくわくするものがあります。

*1:あるいは「MeCab」にかかわった方……というほうがいいのかもしれない

*2:確か神田さん(OASYSの設計者)が、

コンピュータ―知的「道具」考 (NHKブックス (478))

コンピュータ―知的「道具」考 (NHKブックス (478))

考える道具―ワープロの創造と挑戦

考える道具―ワープロの創造と挑戦

で「使えるかな出現頻度データがほとんどないよ!」と叫んで(?)いた気が。そのわずか数年後には、渡辺さん(JIS X 6004の設計者)と坂村さん(TRONキーボードの設計者)が100万字クラス資料にめぐり合えたわけですが……もしも仮に、このお三方が全員そろって「200億文字クラスの【かな下しされた文字列の日本語N-gramデータ】」にめぐり合っていたら、もしかすると「よりよい日本語日常文入力用の文字配列」を作成できた可能性があったのかも!?……と、そんなことを考えてみたり。