けん盤配列を作るために必要なのは、「オレサマ頻度表」か、それとも「世間様頻度表」か……って、どっちも必要だよ。

(過去:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き) - 雑記/えもじならべあそび)
(過去:(改正著作権法)日本語入力法を設計するためのn-gramを取るために、「自分が著作権を持っていない&権利放棄もされていないテキスト」についても交ぜていいことになった……のだろうか? - 雑記/えもじならべあそび)


 改正著作権法の施行によって、おそらくは「Web上の全テキストを、配列解析&配列設計用の母集団として使っていい」ことになったッぽい……のだけれど、それ以前の問題として「n-gram集計ツールや、漢字→かな下しツールについての使い方を覚えなきゃいけない」ところがある。
 それから、処理して得られた結果が誤っていないか……をカンで判断するためには、事前に「自分で書いた文章の、n-gramをとる」必要があって、それで大丈夫だという自信がついてから、もっと大規模なデータに挑むべきだろうな、と思う。


 オーディオのそれと似たようなもので、「いったん自分で作ってみて、はじめて解る」コトって、結構多いと思う……ので、ためしに【自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き) - 雑記/えもじならべあそび】でやったような考え方で、いちど自分が書いてきたテキストなどから、n-gram(とくに3-gram)を収集してみるといいかも。
 そういう経験があると「データを丸のまま信用してはいけない」ってことを体感できるから、収集規模の大小に関わらず「元データの中にある、普段は使わないはずの高頻度な連接(とくに名詞の連呼)」を見つけ出してあえて無視するとか、そーゆー工夫もやりやすくなるし。


 配列作りには、まず2-gramで左右の振り分けを決めて、1-gramで高頻度文字を打ちやすい位置に近づけて配置し、3-gramで運指の検討を行う……とか、そーゆー使い方が出来ると思う。
 よく使う言い回しのうち3-gramが打ちやすくなるように設計してあれば、まず日常の入力時点で困ることはないと思う。
 固有名詞については、なるべく個別対応を避けて「漢音対応」くらいにとどめておいて、あとは大和言葉のうち頻出の部分がなるべく引っかからないようにすると、全体的な打ちやすさをそれなりに良くすることが出来るはず。


 データを「上手く活用」するか、あるいは「データにおぼれる」か……ってゆーのは線引きが難しくて、とことん活用するなら計算配列に突っ走らないと。そこを中途半端にデータを過信するのはかえって危険かも、と思う。
 たとえば、私の日記をそのままに配列を作ったら、ホントにただの配列野郎用配列になっちゃうし……そーゆー影響を「上手く避けるため」にも、一度自分でn-gramを取ってみることをオススメしたいところで。


 たとえば、【「雑記/えもじならべあそび」における、全2,440,461文字についての1〜3文字連接頻度、表計算ドキュメント版。 - 雑記/えもじならべあそび】で公開している「3-gram」とか「2-gram cross」あたりの表現方法は、自分でデータを分析してみないと得られない場合があるし……そういう「データの表現方法を変えて、必要な情報が見えるようにする」ためにも、n-gramを自分で取ってみることは必要だと思う。
 たとえば、2-gram crossで「0」か「#N/A」になってるペアは、同指跳躍にしても全然平気だ……とか、そーゆーところが「頻度リストをにらめっこしなくても、見える」ようになる。
 それから、これはまだやってないけど……「3-gram」について「真ん中」の文字を無視して「2-gram cross」の方法で整理してみると、これは(一文字間に挟んで余裕があるので)「頻度が高ければ、悪運指になっても大丈夫」ってことがわかる、と。
 「3-gram cross」の表から「2-gram cross」の値を引いた数が正の値であれば、悪運指になっても大丈夫だし、マイナスの大きな値になるなら絶対悪運指にしちゃダメだし……とか、あれこれ表計算ソフト上で弄ってみるのも面白いと思う。


 ……と、そんなこんなで「n-gramの読み取り方・活用のやり方」をざっくりと掴んでから、大規模なn-gramの作成にチャレンジすれば、「ただの連接頻度」以外の視点からも、データを眺められるようになるんじゃないかと思う。
 データってのは、ただ並んでるだけじゃ意味がなくて、「どう自分の目的を達成するために、フル活用できるか」ってのがすごく重要……なので、そのあたりは「実際のデータをいじって」アレコレ試して欲しいと思う。
 #ン十時間かかる分析プロセス*1をすっ飛ばして、はじめからサクッと実際に弄ってもらった上で、それぞれに発見があるようにしたい……という意図を持って、私はn-gramデータを「表計算形式で」公開しました。

*1:ツールの使い方を覚えたり、組み合わせ方を考えたり……とか、そーゆーのも分析のプリプロセスには含まれてます。そのあたりも「他の方が試すときには、すんなり行くようにしたい」と思って、【自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き) - 雑記/えもじならべあそび】を公開していたりします。データって、「自分で捏ねて、自分で思い通りの形にする」ことでしか役に立たないから、素のデータを単純分析するところにはあまり労力を割いて欲しくなくて、やっぱり他の方には「見方を変えるための工夫」の部分に力を注いで欲しいんですよね……私がやってきた苦労を、他の方はしなくても済むようにしたいんです。