正仮名遣い用の「かな」配列、やっぱり『専用に』設計しなきゃダメだ……。

(過去:ただいま、「正仮名遣い用の、テスト版月配列(略称:正月配列)」設計テスト中……。 - 雑記/えもじならべあそび)
(過去:現状に文句を言ってる暇があるなら、自分で悩みぬいて苦しみまくって、それで「正仮名遣い用かな配列」を作れば良いじゃん……そして、その成果物を心待ちにしている人がいるはず。 - 雑記/えもじならべあそび)


 1-gramから3-gramまでを算出してみた。
 ただ、あくまでも『日記の新かなづかい』データを「変換テーブルで正かなづかい風にしただけ」なので、(100%そのままの頻度になってる部分があることからも解るように)結構地の文面の影響は残ってる……けど、『差が大きい』事くらいは把握できると思う。
 真面目に正仮名遣いで書いている文章を元に『かな下し』して比較したら、もっとすごい差が出そうな気もする。


 まだOpenDocument形式のフォーマットにはまとめられていないので、とりあえず1-gramでの「新かなづかいとの、頻度差」について貼ってみます。
 かなは「新かなの頻度順」に並べていて、横には「正かなでは、出現頻度がどう変わるか」を示しています。
 部分的に例示すると、たとえば「新かな:い」の一部は「正かな:ゐ」として表記するルールなので、こうなります。

かな 頻度差
83%
53538%

 すさまじい差ですよね……「ゐ」と「ゑ」を単に置くだけじゃあ、正仮名遣い用配列としては、さっぱり役に立たないわけで。

かな 頻度差
83%
89%
101%
101%
99%
100%
100%
100%
100%
100%
100%
106%
101%
100%
100%
100%
100%
100%
100%
96%
39%
161%
99%
102%
99%
100%
97%
100%
93%
102%
98%
100%
101%
96%
101%
106%
100%
100%
91%
118%
105%
99%
82%
101%
54%
100%
122%
101%
97%
206%
76%
91%
103%
163%
95%
101%
101%
102%
68%
86%
100%
102%
100%
107%
249%
100%
84%
100%
100%
100%
100%
101%
100%
100%
100%
142%
100%
100%
100%
100%
100%
100%
100%
100%
100%
100%
101%
100%
383%
100%
100%
100%
53538%
470%
? 100%


 ……これはさすがに「正かなづかいをするためには、専用配列を設計するほうが良いでしょ」って感じ。
 最終的には、新かなづかい用の配列に近い数(それこそ数十種とか、そういう単位)の候補があっても、全然不思議じゃない予感がする。


 ……とりあえず、今日はここまで。
 n-gramをツール用に分解して、ツールに適応させて……とかの段階は、次に持ち越すことに。