ただいま、「正仮名遣い用の、テスト版月配列(略称:正月配列)」設計テスト中……。

(過去:現状に文句を言ってる暇があるなら、自分で悩みぬいて苦しみまくって、それで「正仮名遣い用かな配列」を作れば良いじゃん……そして、その成果物を心待ちにしている人がいるはず。 - 雑記/えもじならべあそび)


 ……あれから色々考えてみたんですけど、たどり着いた答えはひとつでした。

プログラミングについて知らなければ、作れない……って状況は、なんとか「かえで化」して、解消できる部分だけでも解消するべきなんじゃないか。

 ……ってことで、すでに公開されているツールや技術を使って、うまいこと「正仮名遣い用の、テスト版月配列(略称:正月配列)」を作れないだろうか……って所を検討中。


 さすがに、人工言語アルカの幻字を入力するために製作中な「かえであるか配列」とは違って、「なんとなく作るだけでも、評価打鍵以前の段階に限れば、結構いいところまでいくッぽい」……とかいうような、生易しいものじゃなさそうな気はしてる*1
 特に、高頻度かなのピークが減って、中頻度カナが増えそうだ……ってゆー予測が正しかったりすると、月配列化するときの一番おいしい特性がどこまで生きるか予測も付かないので、最適化計算の一発目ではうまくいかないかもしれないし。


 ……ただ、できることなら配列製作プロセスを「正仮名遣いユーザーであって、パソコンにある程度明るければ、誰でも追試できる」ってゆー状態にもって行きたいところなので、プロセスそのものについてはできる限り確立したいと思う。

  • 最低でも100万文字以上の「正字正かな」文章を、「かな下し」したデータ。
    • もしくは上記の代用として、「数百万文字分の、新字新かな文章」を「かな下し正かな文章」に変換するためのキット(変換テーブル+ツールを使うときの手順書)
  • 上記の「かな下しした、正かな」文章を元に、計算ツールで必要となるn-gramデータを作るための手順書、またはn-gram化処理済のデータ。
  • すでに公開していただいている「新字新かな向けの、配列探索ツール」を、「かな下し正かな」で使えるようにするための注意事項などを記した手順書。
  • 実際に出来上がる、配列候補。
  • 配列候補を、実際に数ヶ月〜数年かけて、評価打鍵する。

 ……このうち、少なくとも「かな下し正かな」のデータを作る部分と、できた配列へと実際に移行して、数ヶ月〜数年かけて評価打鍵するという評価プロセスに限っては、正仮名遣いユーザーさんがやらないと『鍵盤配列としての、精度&使い勝手が上がらない』ところに注意。
 とくに、私みたいなのがやると、前段については仮名遣いだけじゃなくて、漢字の読みを付け間違ったりする恐れもある……から、私としては「テスト配列」を作成するまでで精一杯だと思う。


 どこかで息切れしちゃうかもしれないので、すぐに作る……ってのはたぶんできない(し、モチベーションが続くかどうかも不明)だけれど、なんとかできるなら、やっぱり何とかしてみたいよなぁ……と思う。

2010年11月14日18:54:03追記。

 とりあえず、以下の部分まで完了。
 ただし、まだ「手順書」は作ってなくて、「手順書を作る以前の問題として」1パス目の実処理をやってるところ。

  • 最低でも100万文字以上の「正字正かな」文章を、「かな下し」したデータ。
    • 【完了】もしくは上記の代用として、「数百万文字分の、新字新かな文章」を「かな下し正かな文章」に変換するためのキット(変換テーブル+ツールを使うときの手順書)
  • 【進行中】上記の「かな下しした、正かな」文章を元に、計算ツールで必要となるn-gramデータを作るための手順書、またはn-gram化処理済のデータ。
  • すでに公開していただいている「新字新かな向けの、配列探索ツール」を、「かな下し正かな」で使えるようにするための注意事項などを記した手順書。
  • 実際に出来上がる、配列候補。
  • 配列候補を、実際に数ヶ月〜数年かけて、評価打鍵する。

 変換テーブルは、やっぱり「正字正かな使いの方が作らないとダメ」っぽいですね……。
 それと、「ゐ」「ゑ」が交じると「kanji2na経由での、MS-IME再変換がうまくいかない」ので、結局は「kanji2naに頼らず、手動で漢字かな下しを行う」必要があるのかも……これはすさまじく大変なのだけれど、ここをどうするかはまだかんがえつかないところ。

*1:しかも、「かえであるか配列」だって、評価打鍵をまじめにやり出せば、絶対にたくさんの不満が出てきて、当初の設計方針を生かすべきか捨てるべきか……とか葛藤することになるのは目に見えてるし。