(memo)たとえば、「巷に溢れるエロ小説」をOCRにかけて、それのn-gram列を「最も打ちやすい」配列は何か?を計算する、とか。

 ……いや、あえて「エロ小説」に限定する必要はぜんぜんなくて、「ある特定の分野にとって(略」とかでもいいと思うけど。


 ……ってゆーか、逆だな。
 【それのn-gram列を「最も打ちやすい」配列をつくる】べきか。
 ……正直、出現頻度が結構偏っていそうな「エロ小説」にかぎっては、専用の配列があっても不思議じゃなさそうな気もする*1
 #実際、ドキュメントスキャナとか、裁断機とか、そーゆーのを買って実験する……ってほどかどうかは、わからないけれど。

*1:これは私の偏見かもしれない。擬音語とか擬態語とかの影響が、文中にどの程度現れるのか……ってのは解らなくて、実はほとんど影響がなかったりするのかもしれないのだけれど、すくなくとも「連続的に」使われる文字とかはあるだろうから、そういうところに工夫が必要なんじゃないかという気はする。