まだmorogram進行中です…

 単語毎に区切って、語の始めによく使われる文字とか、語の終わりによく使われる文字とかを抽出する方法があるかとテストしている最中です。

 とりあえずは、3-gramあたりまでは語の先頭か終端かを判断できるようにと、置換を繰り返してみました。
 やったことは

  • 英字除去(jgawkの一行スクリプトによる)
  • 漢字・カナ→かな変換(kakasiによる)
  • 改行文字を「空白文字+改行文字」に置換(さくらエディタによる)
  • 全ての空白文字連続を空白文字一文字に置換(さくらエディタによる)
  • 全ての空白文字を「終終始始」の4字に置換(さくらエディタによる)

という感じで、下記のようなテキストにしました。

終終始始よてい終終始始は終終始始みてい終終始始…終終始始
終終始始
きじゅつ終終始始よてい終終始始。終終始始
あすか終終始始の終終始始はいれつ終終始始かえ終終始始はひとまず終終始始かんりょう終終始始したそうなので終終始始、「終終始始も終終始始う終終始始しょう終終始始し終終始始の終終始始ん終終始始び終終始始り終終始始と終終始始」終終始始かい終終始始ていく終終始始よてい終終始始。終終始始

 で、ひとまず1-gramを通してみましたところ、案の定1時間強の処理時間を必要としました…やっぱり。
 (というか、1.2GHzのcentrinoノートでこんな事をやるべきではないかも…デスクトップ(Pen4/2.8G)で処理すれば良かったかな〜などと、今更ながらにちょっと後悔してます)


 面白い結果が出るか、あるいはまた外れに終わるか…1-gramの結果を見ただけでは、まだまだ判断できそうにはありません。

とりあえず2-gramの結果。

 これが何を示唆するものかは、今の私には解りません。
 ひとまず、先頭100位までを貼ってみます。
 (たとえば「始し 0.582%」と「し終 0.276%」の差とか、「始う 0.131%」と「う終 0.766%」の差とか…微妙ですな、「○し」とか「し○」の評価もしないといけないだろうし…)

160166 終始 15.146%
160159 終終 15.145%
145125 始始 13.723%
15041 始始 1.422%
11033 始終 1.043%
8618 始、 0.815%
8526 ん終 0.806%
8102 う終 0.766%
8092 、終 0.765%
8024 い終 0.759%
6405 始に 0.606%
6353 。終 0.601%
6220 始。 0.588%
6152 始し 0.582%
6145 と終 0.581%
5980 始は 0.565%
5906 始か 0.558%
5902 の終 0.558%
4990 を終 0.472%
4971 に終 0.470%
4960 始で 0.469%
4942 は終 0.467%
4925 始を 0.466%
4911 始の 0.464%
4903 始と 0.464%
4583 て終 0.433%
4242 が終 0.401%
4184 く終 0.396%
4159 始な 0.393%
3939 始こ 0.372%
3843 始い 0.363%
3792 始き 0.359%
3681 か終 0.348%
3665 ょう 0.347%
3579 る終 0.338%
3568 始が 0.337%
3496 始お 0.331%
3477 「終 0.329%
3346 」終 0.316%
3295 って 0.312%
3201 始」 0.303%
3148 す終 0.298%
3092 で終 0.292%
3021 つ終 0.286%
2934 始て 0.277%
2919 し終 0.276%
2911 始「 0.275%
2862 た終 0.271%
2751 始… 0.260%
2671 てい 0.253%
2652 な終 0.251%
2625 始だ 0.248%
2622 じ終 0.248%
2575 始も 0.243%
2537 も終 0.240%
2499 …終 0.236%
2482 始あ 0.235%
2462 始た 0.233%
2430 よう 0.230%
2393 き終 0.226%
2383 始じ 0.225%
2334 始す 0.221%
2309 始さ 0.218%
2295 です 0.217%
2275 ない 0.215%
2244 ー終 0.212%
2170 かん 0.205%
2120 して 0.200%
2025 始ま 0.191%
1993 始ひ 0.188%
1961 ゅう 0.185%
1838 始よ 0.174%
1834 り終 0.173%
1831 始つ 0.173%
1700 始そ 0.161%
1675 ら終 0.158%
1622 ます 0.153%
1589 ので 0.150%
1570 はい 0.148%
1570 こと 0.148%
1562 しょ 0.148%
1528 けん 0.144%
1492 ふと 0.141%
1482 どう 0.140%
1481 始ほ 0.140%
1476 だけ 0.140%
1473 きー 0.139%
1461 した 0.138%
1419 いう 0.134%
1415 いれ 0.134%
1400 こう 0.132%
1387 しふ 0.131%
1382 始う 0.131%
1360 ど終 0.129%
1357 ほう 0.128%
1340 れつ 0.127%
1338 たい 0.127%
1321 かい 0.125%
1266 する 0.120%
1253 始ど 0.118%