正仮名遣い用の「かな」配列、やっぱり『専用に』設計しなきゃダメだ……。
(過去:ただいま、「正仮名遣い用の、テスト版月配列(略称:正月配列)」設計テスト中……。 - 雑記/えもじならべあそび)
(過去:現状に文句を言ってる暇があるなら、自分で悩みぬいて苦しみまくって、それで「正仮名遣い用かな配列」を作れば良いじゃん……そして、その成果物を心待ちにしている人がいるはず。 - 雑記/えもじならべあそび)
1-gramから3-gramまでを算出してみた。
ただ、あくまでも『日記の新かなづかい』データを「変換テーブルで正かなづかい風にしただけ」なので、(100%そのままの頻度になってる部分があることからも解るように)結構地の文面の影響は残ってる……けど、『差が大きい』事くらいは把握できると思う。
真面目に正仮名遣いで書いている文章を元に『かな下し』して比較したら、もっとすごい差が出そうな気もする。
まだOpenDocument形式のフォーマットにはまとめられていないので、とりあえず1-gramでの「新かなづかいとの、頻度差」について貼ってみます。
かなは「新かなの頻度順」に並べていて、横には「正かなでは、出現頻度がどう変わるか」を示しています。
部分的に例示すると、たとえば「新かな:い」の一部は「正かな:ゐ」として表記するルールなので、こうなります。
かな | 頻度差 |
い | 83% |
ゐ | 53538% |
すさまじい差ですよね……「ゐ」と「ゑ」を単に置くだけじゃあ、正仮名遣い用配列としては、さっぱり役に立たないわけで。
かな | 頻度差 |
い | 83% |
う | 89% |
ん | 101% |
か | 101% |
し | 99% |
と | 100% |
て | 100% |
の | 100% |
な | 100% |
た | 100% |
に | 100% |
は | 106% |
き | 101% |
で | 100% |
く | 100% |
す | 100% |
、 | 100% |
る | 100% |
が | 100% |
こ | 96% |
っ | 39% |
つ | 161% |
も | 99% |
り | 102% |
ま | 99% |
。 | 100% |
じ | 97% |
れ | 100% |
ょ | 93% |
を | 102% |
ー | 98% |
あ | 100% |
だ | 101% |
お | 96% |
け | 101% |
ら | 106% |
… | 100% |
ど | 100% |
よ | 91% |
さ | 118% |
せ | 105% |
ゅ | 99% |
そ | 82% |
ち | 101% |
え | 54% |
み | 100% |
ひ | 122% |
め | 101% |
ほ | 97% |
ふ | 206% |
わ | 76% |
ろ | 91% |
ば | 103% |
や | 163% |
ゆ | 95% |
ぶ | 101% |
び | 101% |
ぎ | 102% |
ゃ | 68% |
ず | 86% |
ね | 100% |
む | 102% |
ご | 100% |
げ | 107% |
へ | 249% |
ぼ | 100% |
・ | 84% |
ぷ | 100% |
べ | 100% |
ぜ | 100% |
ぐ | 100% |
ざ | 101% |
ぱ | 100% |
ぞ | 100% |
ぴ | 100% |
づ | 142% |
ぁ | 100% |
? | 100% |
ぽ | 100% |
ぃ | 100% |
ぇ | 100% |
! | 100% |
ぺ | 100% |
ぉ | 100% |
〜 | 100% |
, | 100% |
ぬ | 101% |
ぅ | 100% |
ぢ | 383% |
― | 100% |
. | 100% |
ゎ | 100% |
ゐ | 53538% |
ゑ | 470% |
? | 100% |
……これはさすがに「正かなづかいをするためには、専用配列を設計するほうが良いでしょ」って感じ。
最終的には、新かなづかい用の配列に近い数(それこそ数十種とか、そういう単位)の候補があっても、全然不思議じゃない予感がする。
……とりあえず、今日はここまで。
n-gramをツール用に分解して、ツールに適応させて……とかの段階は、次に持ち越すことに。