(改正著作権法)日本語入力法を設計するためのn-gramを取るために、「自分が著作権を持っていない＆権利放棄もされていないテキスト」についても交ぜていいことになった……のだろうか？

　ダウンロード違法化の話だけが先行してる気もする「改正著作権法」のはなし、なのだけれど。
　主に検索エンジン＆SocialIME方面のために作られたと思われる、【第47条の7】というところについて、もしかすると「日本語入力用配列を作るうえで必要となる、n-gramのデータ」作成用に、方々のテキストを収集→処理してもよいのだろうか？というところが気になった*1。
　原文は↓のpp.8-9。

http://www.bunka.go.jp/chosakuken/pdf/21_houkaisei_joubun.pdf

　要点としては、↓のように解説されてる*2。

■　情報解析研究のための複製等に係る権利制限

　コンピュータ等を用いた情報解析のために行われる複製等について，権利制限が認められました。（第47条の7関係）

(from http://www.bunka.go.jp/chosakuken/21_houkaisei.html )

　誰か、これについて知ってる人が居ましたら、お教えください……*3。

　……ってゆーか、改正著作権法についてのパブリックコメント募集時に、この点について明示するように！ッてコメントをキャストしなかったから、こーゆーコトで悩む必要が出てきてしまったというところに、いまさら気づいて意気消沈……orz。
　パブリックコメントのところは、意外とスルーする時があったのだけれど、今度から気をつけなきゃだめだな……。

2010年1月4日23:10:13追記。

ブログの実態に関する調査研究の結果(pdf)

　たとえば↑……Blogだけでも「テキスト換算12TB(≒7兆2千億かな？)」とか、それぐらいのソースがある。
　今までの「120万かな規模」とかで作られた配列だと、Blog全体と比較したときに「7桁くらい足りない」ことになる。
　もしも、Blog全文を全部N-gramして配列設計に使えたら、6百万倍正確性が増す……と*4。

　もちろん、ビジネスメールとか、非Internet領域のはここには含まれない……けど、基本的には「素に近い状態で書く文章≒推敲段階で書く文章」という関係に近づいてはいそうだから、けん盤配列を評価したり設計したりする上で、十分なデータとして使えそうな気はする。

*1:従来は「(日本では著作権を放棄できないけど)パブリックドメインになっているもの」が使える程度で、他は基本的に「自分が著作権を持ってるもの」しか使えなかった。引用という手もあるのだけれど、これでは「統計処理をすると同一性保持に違反してしまう」し。今回の【第47条の7】が「日本語入力法設計のための、n-gram生成」にも適用されるのであれば、使ってよいソースの幅がすごく広がる。

*2:同ページの下方に【問5 情報解析研究のための複製等について，無許諾で行えることとする趣旨及び内容について教えてください。（第47条の7）】ってゆーのもあって、そっちをみると「まさにドンピシャで当てはまる」気もする、のだけれど、法の解釈が正しいのかどうか、正直よく解らないんです。

*3:個人的には、「かなりえっちです＊＊＊＊あすか配列」の配置変更が、本当に必要だったのだろうか？とか、そーゆーところも気になっていたりします。できればgoogleみたいなのをめざして、「x兆かな」規模のn-gramをもとに、配字設計できるといいんですけどね……。

*4:実際には、今の配列が【六百万分の一の正確性しかない、わけではない】のだけれど、【六百万倍もある母集団の代表として、ふさわしいソースを選出できたか？を見極める方法なんてない】ので……いつかは(web全体は無理としても)blog全体を対象にした「n-gramによる頻度調査」をして、それをもとにけん盤配列の設計/評価をしてみたいところです。