とりあえずてすとちゅー。

(過去:(memo)たとえば、「巷に溢れるエロ小説」をOCRにかけて、それのn-gram列を「最も打ちやすい」配列は何か?を計算する、とか。 - 雑記/えもじならべあそび)


 著作権フリーの「それっぽい」小説(半角カナ換算で8kB)を見つけた……ので、rage2050さんのプログラム( http://www.geocities.jp/rage2050a/GeneKana/ )を使って配列を生成してみるテスト中。
 ひさしぶりにn-gramとかをとった気がするのだけれど、やり方とかを微妙に忘れていて、ちょっと時間が押してしまったところがへこみどころで。


 ……で、回し始めの感触だと、「擬音語」とか「擬態語」あたりによる影響は少ないみたいで、「説明調+会話体」向けの配列という感じになりそうな予感も。
 とりあえず、GA配列の候補がきちんと出るまで、放置プレイする予定。
 #もしかすると、普段使いでも結構使える配列になるかも……。