親指シフトの配列はどうやって決定されたのか?についての思考テスト。
【1980年前後のかな系配列に対する、素朴な疑問。】
【親指シフトけん盤配列と、その「対照配列」について。】
この2件の続きです。
今の目的というのは「どうやって親指シフトの配列が決定されたのかを探りたい」というところでして。
NICOLAへの移行時に「ぱぴぷぺぽ」が空き領域に割り当てられたのはいいとして、それ以前の「親指シフト」時代に(対照配列を除外すれば)一発で作られた以下の配列が、いったいどういう理屈で作成されたのかが気になっています。
例の本を読む限りは、「ある文字(?)*1をキーにして、それに連接する文字を左右に振り分け→段毎&指ごとに振り分け」したように感じられます。
その理屈と「元となった文字頻度データ」があれば、【親指シフト配列の配列設計をそのまま再現すること】ができるのではないかな……と。
……要するに、【親指シフト配列のレシピ】を知りたいわけです。
仮に「テンマル」がキーだとすると……と思ったのですが、これは以前【1980年前後のかな系配列に対する、素朴な疑問。】で「小梅」の配字について書いたとおりで、この方向性は微妙かなぁ……と。
この方向性でいくのであれば、(今小梅で行われているように)【。てでまかが】と【、す】が組みになって左右に振り分けられる必要があります。
【。】と【す】を同段にするか(これはNICOLAの配列方針にないから、たぶんこういう選択はありえない)、あるいは【す】と【。てでまかが】を反対の手で操作するか(これはNICOLAの配列方針と矛盾しないから、連接次第ではありえる)なのですが、後者については「親指シフトの設計時に用いられた連接頻度表」が手元にないので、確認できない状態にあります。
もう一つこれが「ありえないかも」と思う理由は、結局句読点に関しては配字方針に一言も書かれていない……という点ですね。
……と、うだうだ書いていても仕方がないので、とりあえず配列と手元の連接頻度順を比べてみることにします。
【 | NI | CO | LA | 逆 | シ | フ | ト | 】 | 【 | NI | CO | LA | ア | ン | シ | フ | ト | 】 | 【 | NI | CO | LA | ス | ト | レ | ー | ト | シ | フ | ト | 】 | |||||
小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | 小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | 小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | ||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
が | だ | ご | ざ | ぢ | ぐ | づ | 。 | か | た | こ | さ | ら | ち | く | つ | , | 、 | ぁ | え | り | ゃ | れ | よ | に | る | ま | ぇ | |||||||||
じ | で | げ | ぜ | ば | ど | ぎ | う | し | て | け | せ | は | と | き | い | ん | を | あ | な | ゅ | も | み | お | の | ょ | っ | ||||||||||
び | ず | ぶ | べ | ぞ | ぼ | . | ひ | す | ふ | へ | め | そ | ね | ほ | ・ | ぅ | ー | ろ | や | ぃ | ぬ | ゆ | む | わ | ぉ |
ターゲットの前に来やすい文字 | ターゲットの後に来やすい文字 | |
さぶ!ぅゃぎ?ぐゅごわせゆぇびむえじそまけみよー。ねおちれすめろきだのつぁなっるをあたずやうどりいばくしんにらもかとがてでは→ | 、 | ←こそあかといしおなきひどまじたもさけはすわほにだよふつでろちやのがげせみぜてうりえむめごゆへねぶくれをっべぎばるぼずざらぱぽぷびぺ・2[んぐ!ぁa:ぬnぴ |
ぶぐべやへぷぞっこぎゃ?!ぇわえちをびまむのけぁぃょ。さーめろだせみばはれどつじよにきりずらくしてがともでうねなるんかいたす→ | 。 | ←こ…いあそしかとたもまひで「さおきはつなじうどわにっゆちてすげほよえのだへけ」せしろふみむ【くがりぎやばね】、めごを。れぜ※○ぶ→ぱんざぼ↑ぽ↓ず←ぐ★ぺぴ×』ら☆□るべび |
うーん……狙ったかのようにことごとく裏目に出ているような^^;。
ぱっと見た感じでは、親指シフト(=NICOLA)の句読点位置は逆……つまり【Q=、】【@=。】にするほうが、かえって(句読点打ち切りとした場合の)交互打鍵性が上がる気すらしてきます。
……これは考慮されていない(句読点をキーとして配列を設計したわけではない)とみなして良さそうですね。
#こういう結論を「たかが一個人の日記からひいた文字頻度で見ていいのか?」という問題点は残りますが……。
【。】が左で【、】が右というのは「対照配列」のそれと同じ(=Qwerty/Dvorakと逆)なので、この句読点の割り振りは配列決定時にそもそも考慮されていなかった(=対照配列のものをそのまま上段に上げて左右にばらした)可能性もありそうです。
とはいえ、元になった連接頻度表に「句読点が含まれていない」というのも考えにくいですし……うーん、なぜこうなったのかはよく解らないですね。何かヒントになるものがあればいいのですが。
そうすると、次に考えられるのは「(発生順序は逆になりますが)飛鳥のような配字方針を取ったのではないか?」という考え方です。
たとえば飛鳥では「いうんし」を先立って固定していました。
その際、参考にしたのはJISカナの配列ではなくM式のページにあった
カナの単独出現率のデータでした。前世紀から、全ての出現率データで共通している1位〜4位の「いうんし」を強い指の順に
KDJSの表に置いたのはこのためです。JISカナでは1位の「い」が左のEですし。
(from http://www.eurus.dti.ne.jp/~yfi/aska_log/aska_02.html #329)
親指シフトでは、「小指は動かしたくないので、中段に頻度の高いかなを割り当てる」という方針が採用されました……それが左小指ホームの【う】と右小指ホームの【ん】ですね*2。ついでに【い】は右手薬指に・【し】は左手薬指に置かれています。
そうすると、【う】【ん】に連接しやすいかなを逆手側に置けば、交互打鍵率が高くなるのではないか?と……そう考えて設計する可能性はありそうに思いました(【い】と【し】がいつ置かれたのかは不明ですが……)。
当時使用されていた連接頻度表がどう集計されていたのかは不明ですが、それが(おそらくは)紙媒体による資料である&全文字が2万文字強程度であるということを考えると、3文字連接は記述されず2文字連接までしか書かれていなかったのではないかな……と(注:もちろんここは推測です)。
2文字連接のみの使用&同時打鍵方式となると、(JISかな系のような濁音による交互打鍵は計測しないお約束を自ら作ってしまったので)見かけ上の交互打鍵率は大きく下がります(操作上は親指キーを先押しするほうが安定するので、この計測方法も微妙な気はしますけれども)。
……と、うだうだ書いていても仕方がないので、とりあえず配列と手元の連接頻度順を比べてみることにします。
【 | NI | CO | LA | 逆 | シ | フ | ト | 】 | 【 | NI | CO | LA | ア | ン | シ | フ | ト | 】 | 【 | NI | CO | LA | ス | ト | レ | ー | ト | シ | フ | ト | 】 | |||||
小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | 小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | 小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | ||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
が | だ | ご | ざ | ぢ | ぐ | づ | 。 | か | た | こ | さ | ら | ち | く | つ | , | 、 | ぁ | え | り | ゃ | れ | よ | に | る | ま | ぇ | |||||||||
じ | で | げ | ぜ | ば | ど | ぎ | う | し | て | け | せ | は | と | き | い | ん | を | あ | な | ゅ | も | み | お | の | ょ | っ | ||||||||||
び | ず | ぶ | べ | ぞ | ぼ | . | ひ | す | ふ | へ | め | そ | ね | ほ | ・ | ぅ | ー | ろ | や | ぃ | ぬ | ゆ | む | わ | ぉ |
【右手側】※「す」は全て「【】」でくくっています。
ターゲットの前に来やすい文字 | ターゲットの後に来やすい文字 | |
ぐべゅぬぺぇ)ほ!ぎ?ぶふびぞげねこょぜ・」ひみゆーゃじそどりむやごぽずぁへわぱづちぼき「ばろくをでのざえに【す】おまんれ。、るめよあもいしらうがけだつさせとたかはなて→ | い | ←れうまてたるのかでしとはんなにきっじ。がいちこ」よ【す】けわをださおくやつ、もあどせろ…みぷえぎりそひめほらぜばへぶ!ぞごぴゆげ・「ずねむふ】ぼび→ーづ←ぱべざ?=ぺ【0ぬぐぢ&d?2☆ |
、むごんっ・ぁつゆ。ぷぼびぺぐ「わぃぬの【す】がよやぉぞざぽくどぱみべるとまぴゃちふじそえでりょろひきねーらうだばゅおれもあぜほたはこぶめなへしいさてにげせけか→ | ん | ←しでがとにかじのだはなをき【す】てさ。どたい、」ごよこせけくそりぞ・もざぐ…らちあめまばげおねれぶほぽつひわぜぱふぷへ「やろみ→えむびうっべ←ゆぴぼぬぎぺる!ず】↓&↑(』【ん%)ょゅー?ゃ○づ■ぁ☆ |
【左手側】※「す」は全て「【】」でくくっています。(【か】は、飛鳥では右手側にある。)
ターゲットの前に来やすい文字 | ターゲットの後に来やすい文字 | |
べわずれゃぜぅむ?みさっぉぇぁぃちえけや」・ぐばじぷだふーきりびしんるあたぽはて、らな「でぞにぼごが。をくうかつ【す】ろまおもゆのとそほこいどゅよょ→ | う | ←かしにじりでがなこのいきとほはてさを【す】ちよせたつ。だもおん」げえそーけひっごう、やどあまめろらぶれわふみ…「ぜるく゛ねぼばへぞゆべぉぇざ・ぎ!む→びぽぐず←ぃぱ】?ぷ★wぺf?:づ&4【ぅ[%] |
ぇゆ(ぃねぱせ?ぶ!げぼぐざゅみひよ」ろぷずけ・そえあゃごふ。ょばれわやーどぎしちほむ【す】っこめるさつき「らはだ。り、がおのをかじなにくびてもでたといまんう→ | し | ←てたょふまゅんかきいゃれな、よはくつにっがろでのだ。し【す】ら…もこゆさりあーえめをばじとや」おそどせちみぎわぜうづるごずぶひむけ「ぼほげぇね→!へび←★・ぉ×ぱぷ |
ぉざぃげぬ?!&ぷそぐょべぼぎゃあづやせけゅぶぜふろ・びどこめみよまひむえご」さばおでずれらだ「ちほくーもわは。りがきたてじかっ、をるしになとのいつん【す】う→ | か | ←んいらなもくのっえ、。したとかにはりわ…をきつ」うゆでけれがど【す】ぎさるおこ?「みせずだげよねーまあてちそじばめぜぶほ×ひへふろ・むべづぞぱごやびざ!←゛&ぼ△→ぉ |
こちらは半数ぐらいがヒットしていますから、使用頻度も考慮すると交互打鍵率が50%〜55%ぐらいになりそうです……ということは、【いうんしか】のいずれかをキーにして配列設計を行ったとみなすほうが、話の筋は通りそうです。
そうすると、まず一番初めに「なるべく交互打鍵率が高くなるように左右に振り分けた」と……って、これでは高頻度文字に絡みにくい【す】が左手下段に来る理由が判然としないですね。
#「か」の前に「す」が近接しているのは、文中に「あすか」が割りとあることが影響している可能性が高いと思いますし。
……「連接頻度」で見ていると訳がわからなくなってくるので、一旦「単独頻度」も乗せなおしつつ見直してみることに。
【 | NI | CO | LA | 逆 | シ | フ | ト | 】 | 【 | NI | CO | LA | ア | ン | シ | フ | ト | 】 | 【 | NI | CO | LA | ス | ト | レ | ー | ト | シ | フ | ト | 】 | |||||
小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | 小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | 小 | 薬 | 中 | 人 | 伸 | 伸 | 人 | 中 | 薬 | 小 | 伸 | ||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
が | だ | ご | ざ | ぢ | ぐ | づ | 。 | か | た | こ | さ | ら | ち | く | つ | , | 、 | ぁ | え | り | ゃ | れ | よ | に | る | ま | ぇ | |||||||||
じ | で | げ | ぜ | ば | ど | ぎ | う | し | て | け | せ | は | と | き | い | ん | を | あ | な | ゅ | も | み | お | の | ょ | っ | ||||||||||
び | ず | ぶ | べ | ぞ | ぼ | . | ひ | す | ふ | へ | め | そ | ね | ほ | ・ | ぅ | ー | ろ | や | ぃ | ぬ | ゆ | む | わ | ぉ |
ターゲットの前に来やすい文字 | ターゲットの後に来やすい文字 | |
へろょぐ&ばゃだぱぽや?ぼ・ごふまわらずびお「どちねーげ」なさこよかがとを、りひぎはて。でるすたもつあにじべせけのきめみえくうんれいしっ→ | て | ←いき、んもはしみのかくゆお「こなるまにが。すほあてつたよださとどむひうを…でじ」そぃちーせれやらっわごめばけふげりぎ・へろべ【ぶえねざずぼぱ?!ぜ←び】○づぺぷぬ→ょ |
ぴおぇべぼっゃねぺふ?ざづ!ぜそゅひをげぶあぐ・ほせむごょやだばぷでゆぎなさわて「びーこめたもらはろに、ちどるすしみずりかきえ。」れじつくがとけまういんの→ | で | ←すは、きしもあのに。いん「かおだてなうた…こつさぃひとよるまく」じそーみふせめほどけでちわやをろむごがぶびれへざぎばねげゆえっらずぜりぱ【べ!ぷ○・ぽ→ぐ |
!べぽづぬぱぐわひぼげぞびそむ?・ば」よごふめざねおろぎどずゃせちらけすかでじだもあ「えながつをにるんやくうさてたこ。はみのと、まれきーりしい→ | ま | ←すしせじっでずまいえうだたちとりにさんくるのぁつわかなゆはれどあらよーもが」ねこざけ。、きおぜをみやへぬてぎづむほふ【ごげばろぱそ |
へごぺ?ゆぶほぼぱそぐねゅぴひゃぎむけ」ずぷぃせっどびざろょ・えばめちらきじぽこたみも「つれしなわだる。さてのはすかりをがにお、とやくーいうんあまで→ | す | ←。るかがとなねくの…いようべれこみぺきしでぎすたて」めっらをりけばはにま!さ、だごもむぐずんわ・そぷほちじぴ →】ろあぱせおえつへひ「ふぜゆど←〃げぽ○ぶびぇ<: |
ぉざぃげぬ?!&ぷそぐょべぼぎゃあづやせけゅぶぜふろ・びどこめみよまひむえご」さばおでずれらだ「ちほくーもわは。りがきたてじかっ、をるしになとのいつんすう→ | か | ←んいらなもくのっえ、。したとかにはりわ…をきつ」うゆでけれがどすぎさるおこ?「みせずだげよねーまあてちそじばめぜぶほ×ひへふろ・むべづぞぱごやびざ!←゛&ぼ△→ぉ |
ぱっげざぶ・べふひょをぷむめごもやでゃぎそがばぐえまだこわ。けはびせあ「ずみにろるね、らじてかどりしーくつされ」たのなちきいとうすん→ | が | ←、いあつなえしでおわかっすよ。きらく…たこうは「とひちにもみまじさふどげりそめだてほのせをぞるゆへけれんがやばぎー」べむねびごずぶぼぬ・ろぜざぽ2i【↓ぐ!ぱ |
やんごじぜぁっひむよげあだぶょにえゃいせふぱがなずはらまさぃねちでけべどてそるつぽかしぉぴぇおざりとほわたこのゅもればめうぺぼゆろき→ | ー | ←どまとぼるをすじはかんのむがにさたこぷくふざしばでずだなら」わおっちぶきもそいひ、てゆり→。よめへうせぱ←ねつびやあほけろみ&ぜ「げえれ・…ご?a1+ぐべ |
かな い う ん か し て す 、 。 ー 頻度 24063 18750 17391 15771 15400 12026 9774 8709 6543 5576 比率 1 0.78 0.72 0.66 0.64 0.5 0.41 0.36 0.27 0.23 かな が じ で 頻度 7293 6376 9582 比率 0.3 0.26 0.4 (from http://d.hatena.ne.jp/maple_magician/20051108/1131442718 )
単純に「ですます対応」がなされていないだけで、全体的にはうまく交互打鍵が効いています。
うーん……「交互打鍵を成立させる」→「頻度が低い文字を下段に押し込む」→「なるべく同指&隣接指を使わないようにする」の順に設計したのかもしれないですね……そうすれば【す】が下段に来るのは当然で、それでシステムはうまく回りますし。
逆に「交互打鍵を成立させる」→「なるべく同指&隣接指を使わないようにする」→「頻度が低い文字を下段に押し込む」という順序であるとすると、妙に同指&隣接指を回避できていないシーンが目立つので、この順番ではなさそうな気がします。
それにしてもこの配列、やっぱり計算で出したのでしょうか……。
特定の言い回しに対する配慮ではなくて、いわゆる「平均的に打ちやすいことを目指している」感じを受けました。
個人的には、「交互打鍵を成立させる」→「なるべく同指&隣接指を使わないようにする」→「頻度が低い文字を下段に押し込む」の順で設計していれば、さらに指がらみが少ない配列を設計できたのではないかな……と、そんなことを思ってみたり。
下段を徹底的に排除するか、あるいは指がらみの防止に努めるか……計算配列の設計は、思想(設計指針)次第で色々変わってしまうのかもしれないですね。