「黄砂配列」、漢字の拾い方からして間違っていたらしい……orz

(過去:黄砂配列関連作業メモ。)
(過去:購入した書籍を軽く眺めつつ思ったことをメモ。)
(過去:繭姫で中文入力を試みるテスト、というか「Microsoft Pinyin IMEで繭姫を動かしてみる」テスト〜その2〜。)


 日本にある「亜」の旧字体「亞」は、中国の異字体であるにもかかわらずMS Pinyin IMEではピンイン入力出来ない。
 日本にある「産」(中国では「产」に置換)は、中国の異字体であるにもかかわらずMS Pinyin IMEではピンイン入力出来ない。
 辞書中でカッコ書きされている異字体・旧字体に関しては、とりあえず黄砂配列では収容しないことに。
 IMEに収容されていない文字=実際に使われていない文字、と短絡的に考えるつもりはない(日本でも呆れるほど議論が巻き起こっているし)ものの、正しい文字を文字盤から拾い出すのは非常に困難なので……。


 ……と、ここまで書いて気づきました。
 よくよく考えてみると、「部首索引で文字を探す→本文をめくってメジャーかマイナーかを判別する」というのはすご〜く無駄ですね……orz
 ……じゃなかった、やっぱり無駄だと解っていてもやらないといけないらしい。
 たとえば「着」という字には「zhao1/zhao2/zhe/zhuo」というピンインが振られていて、掲載ページが結構離れているわけで……結局面倒なことを続けなければダメなのかorz
 とりあえず、ページ数からの逆引きが必要ないことは確認……ピンインからひける辞書だから、(電子テキスト化済みの物だけを見て)ピンインで引くほうが気分的にらくだと思うし。
 いや、項目数が多すぎるから、結局ページ名を調べないと時間が掛かりそう。
 で、本文ページに関しては脇の見出し漢字も本文見出し漢字とともに赤字で書かれているので、脇の見出し漢字だけを見ればmajorかminorかは判別できる、と。
 これ以上作業の簡略化はしようがないらしく。


 ……と、こういう感じでグダグダな調べものをしています。
 2006年5月8日2:16:38現在、52ページある部首索引のうちの「1ページ目半分だけ」をテキスト化。
 まだ1%にすら達していません……orz