とりあえずてすとちゅー。 - 雑記/えもじならべあそび on blog

(過去:(memo)たとえば、「巷に溢れるエロ小説」をOCRにかけて、それのn-gram列を「最も打ちやすい」配列は何か？を計算する、とか。 - 雑記/えもじならべあそび)

　著作権フリーの「それっぽい」小説(半角カナ換算で8kB)を見つけた……ので、rage2050さんのプログラム( http://www.geocities.jp/rage2050a/GeneKana/ )を使って配列を生成してみるテスト中。
　ひさしぶりにn-gramとかをとった気がするのだけれど、やり方とかを微妙に忘れていて、ちょっと時間が押してしまったところがへこみどころで。

　……で、回し始めの感触だと、「擬音語」とか「擬態語」あたりによる影響は少ないみたいで、「説明調＋会話体」向けの配列という感じになりそうな予感も。
　とりあえず、GA配列の候補がきちんと出るまで、放置プレイする予定。
　#もしかすると、普段使いでも結構使える配列になるかも……。