メモ……日記調文章で良く使う「かな」の順に学習するための問題文作成方法。


 手元のひらがな辞書は42785件しかないので、表計算ソフトに全部貼り付けても処理できる……はじめからソレに頼る方が楽かも。


 ひらがな辞書から「いうんかしたすにでき」をマスクしたテキストを生成。

jgawk '/[いうんかしたすにでき]/{print $0}' hiragana.txt > sec3_p1.txt

 ひらがな辞書を表計算ソフトのA列に貼り、上記処理結果をB列に貼る。
 2列をテキスト(sec3_p2.txt)に書き出し、■を含む行のみを出力する。

jgawk '/■/{print $0;}' sec3_p2.txt > sec3_p3.txt

 この状態で、A列には素のテキストが、B列には処理で使用した■を含むテキストが存在していることになる。


 表計算ソフトの内容を一旦クリアする。
 sec3_p3.txtを表計算ソフトに貼り、B列を削除する。
 結果をsec3_p4.txtに貼り、section3で本来学習すべき「たすにでき」のみを■マスクした物を作成

jgawk -f masksec3.awk sec3_p4.txt > sec3_p5.txt

 この結果を表計算ソフトのB列側に貼る。
 2列をテキスト(sec3_p6.txt)に書き出し、■を含む行のみを出力する。

jgawk '/■/{print $0;}' sec3_p6.txt > sec3_p7.txt


 重複は手動削除で。

  • sec3_p7.txtの内容を表計算ソフトのB1セル始点でコピー
  • 昇順もしくは降順でソート
  • 表計算ソフトのA1に[ =if(b1=b2;1;0) ]と書き、かなの数だけドラッグして式を複製
  • sec3_p8.txtに書き戻す
  • 次のスクリプトを通して、重複部分がないテキストのみを抽出

jgawk '/0/{print $0;}' sec3_p8.txt > sec3_p9.txt

  • sec3_p9.txtを表計算ソフトに転記し、B列のテキスト部のみをsec3_p10.txtに書き戻す……これが
  • 「いうんかしたすにでき」以外の文字を含まない
  • かならず「たすにでき」の文字を含む

という条件を満たすテキストになる……はず。


 ……メモはミスっているかもしれませんorz