NICOLA(親指シフト)の配列を作った元データは、「300万かな級」なのかも。

(関連:(memo)やまぶきについて、こーゆー要望を出していいのだろうか?と迷ってる。 - 雑記/えもじならべあそび)
(関連:「やまぶきの考え方」が普及してくれると、僕としてはとてもうれしい。 - 雑記/えもじならべあそび)
(関連:タイムシフトと同時打鍵、どっちが先に乗るべきなのか。 - 雑記/えもじならべあそび)
(関連:NICOLA(親指シフト)は、「シフト残り」を防ぐために、「同期非連続シフト」を採用した……って、「シフト残り」は和英共用できるロジックでも防げるってばorz。 - 雑記/えもじならべあそび)
(関連:(titleonly)NICOLAに「連続ではない、打ちきりの」シフトロジックは「必要」なのだろうか?ってのを、今年は突き詰めて考えないと……。 - 雑記/えもじならべあそび)


 放置プレイしていたことについて、ようやく「つながった」気がする。
 ……2つつながったうちの一つが↓。

文字の配置
1. かなの出現頻度を調査した。
  ・国立国語研究所電子計算機による新聞の語彙調査」から出現頻度と連接出現頻度
  ・雑誌 言語生活「録音機」に掲載された日常会話から出現頻度と連接出現頻度
2.濁音になる文字はキーの下側に配列した。
3.頻度の高い文字の順にホーム行、上の行、下の行に配置するよう考慮した。
4.指の使用率は人差指、中指、薬指、小指の順に小さくなるように考慮した。
5.小指は動かさなくても済むようにし、小指を軸にして他の指を動かすようにした。
6.連続して現れる文字を考慮して、左右の指を交互に使うように考慮した。
 また、同じ指、隣接する指を連続して使わないように考慮した。
  かなの出現頻度と連接頻度のデータを別紙1に示す。
(from http://www.ykanda.jp/txt/txt/21a.txt )

 この「別紙1」がどーなってるのかは解らない、けど。
 いまどきの人にとってわかりやすそうなので言うと、「IMEの辞書に、頻度情報がくっついたもの」を基にしてる……って感じ。
 おそらく、はっきりいえることは2つ。

  • ソースは、新JISのように「連綿としたかなを打っていく」ものとは全く性質が違っていて、「語と語をくっつけて打っていく」タイプのもの。
    • 新JISのように「超高速入力法を作ろう」としていたのであれば、この資料は役に立たない……けど、親指シフトが「英文タイプのように打っていく」という目的で作られているのだから、その役には立っている。
  • 句点と読点が「あっちむいてほい」になってる理由は、もー調査元を見ればピンと来るでしょ、と。


 別紙1自体がどこにあるのかはわからないけど、基データは公開されていた。

 ……がんばって読んでみて下さい。データ好きの人にとっては面白いと思います。



 ……で、現実の配列が「大規模調査を反映してナイっぽく見える」のは、たぶん処理上の問題だろうな……と。
 この形のデータは、正直言って「けん盤配列を作成する」という用途において、単独で使うには厳しいものがあると思います。
 仮に、このデータの基となる「全文かな下しデータ、もしくはその2-gramデータ」の提供を受けていた……となると、話はだいぶ変わると思いますけど、その痕跡は今のところ見つからないので、正直なんともいえない所です。
 ……また日を改めて、調査してみようと思う。