大規模N-gramデータが公開されていた……改正著作権法の施行後に公開されたものらしく、作者提示の利用条件で安心して使えるところも◎。

(関連:452万文字分の、はてなダイアリー日記内かな連接頻度データ。 - 雑記/えもじならべあそび)
(関連:(改正著作権法)日本語入力法を設計するためのn-gramを取るために、「自分が著作権を持っていない&権利放棄もされていないテキスト」についても交ぜていいことになった……のだろうか? - 雑記/えもじならべあそび)
(関連:「雑記/えもじならべあそび」における、全2,440,461文字についての1〜3文字連接頻度、表計算ドキュメント版。 - 雑記/えもじならべあそび)
(関連:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き) - 雑記/えもじならべあそび)


 よろしければ〜スレッドの25さんが、かなり美味しそうなデータを発見してくださったようです。

 25さんの指摘どおり、そもそもwebが世間を代表していない……ってゆー問題は残るのですが、基本的には母集団が大きければS/N比も広く取れるので、相応に役立つことは確実という感じですね。


 今までの配列ですと、80年代には百万文字級・2000年代には数億文字級(2ちゃんねるデータ等)という形でデータを利用できていましたが、2010年代にはこういった千億文字級のデータが利用できるようになった……と、その分だけ取りこぼしの少ない配列作りに役立ちそうですね。
 もっとも、これをこのまま使うと「Webサイトを記述しやすい」方向に傾きがちなので、実際に使うときには『その配列を、どういう人が使うというストーリーで作るのか*1』という視点に立って、(小規模でもよいので)ある程度の追加データ(というか傾斜データ)を加えつつ、配列設計に役立てるのがいいのかな、と思います。


 それにしても、すごい時代が来ましたね……法律と技術とが、こうもちょうどいいタイミングで開花するとは。
 今後のけん盤配列について、より広い可能性が開けたと言えそうです。
 #あとは、この公開されているデータを、どうやって「かな下し→再n-gram」するか、ですね……そこはどうしよう。

*1:けん盤配列には、やっぱり『ストーリー』が欲しいと思う。俺様配列なら「俺様にとって使いやすくしたい!」ってゆー明確なストーリーがあるから良いけど、汎用を目指してるなら「設計指針」だけじゃなく『ストーリー』も付与して欲しいな、と。たとえばホームポジションオンリー配列だと自動的に『タッチタイプできる!という自信を持って欲しい』人に対する提案として筋が通ってるし、親指シフトは『1000万人のオフィスユーザーにゆったり使って欲しい!』ってのがある。新JISは同じ事務向けでも狙いが違っていて『OLさんにガシガシ使って欲しい』だろうし、カナタイプ配列には『英文議事録のように和文だってガシガシ機械記述できなきゃ、将来の日本ヤバイよ!』ってゆー想いから始まってたりする。そーゆー熱いものが内にあるかどうか……ってゆーものが、『ストーリー』として出ていると興味関心を誘うよね。