(改正著作権法)日本語入力法を設計するためのn-gramを取るために、「自分が著作権を持っていない&権利放棄もされていないテキスト」についても交ぜていいことになった……のだろうか?

 ダウンロード違法化の話だけが先行してる気もする「改正著作権法」のはなし、なのだけれど。
 主に検索エンジン&SocialIME方面のために作られたと思われる、【第47条の7】というところについて、もしかすると「日本語入力用配列を作るうえで必要となる、n-gramのデータ」作成用に、方々のテキストを収集→処理してもよいのだろうか?というところが気になった*1
 原文は↓のpp.8-9。

 要点としては、↓のように解説されてる*2

■  情報解析研究のための複製等に係る権利制限


 コンピュータ等を用いた情報解析のために行われる複製等について,権利制限が認められました。(第47条の7関係)


(from http://www.bunka.go.jp/chosakuken/21_houkaisei.html )


 誰か、これについて知ってる人が居ましたら、お教えください……*3


 ……ってゆーか、改正著作権法についてのパブリックコメント募集時に、この点について明示するように!ッてコメントをキャストしなかったから、こーゆーコトで悩む必要が出てきてしまったというところに、いまさら気づいて意気消沈……orz。
 パブリックコメントのところは、意外とスルーする時があったのだけれど、今度から気をつけなきゃだめだな……。

2010年1月4日23:10:13追記。

 たとえば↑……Blogだけでも「テキスト換算12TB(≒7兆2千億かな?)」とか、それぐらいのソースがある。
 今までの「120万かな規模」とかで作られた配列だと、Blog全体と比較したときに「7桁くらい足りない」ことになる。
 もしも、Blog全文を全部N-gramして配列設計に使えたら、6百万倍正確性が増す……と*4


 もちろん、ビジネスメールとか、非Internet領域のはここには含まれない……けど、基本的には「素に近い状態で書く文章≒推敲段階で書く文章」という関係に近づいてはいそうだから、けん盤配列を評価したり設計したりする上で、十分なデータとして使えそうな気はする。

*1:従来は「(日本では著作権を放棄できないけど)パブリックドメインになっているもの」が使える程度で、他は基本的に「自分が著作権を持ってるもの」しか使えなかった。引用という手もあるのだけれど、これでは「統計処理をすると同一性保持に違反してしまう」し。今回の【第47条の7】が「日本語入力法設計のための、n-gram生成」にも適用されるのであれば、使ってよいソースの幅がすごく広がる。

*2:同ページの下方に【問5 情報解析研究のための複製等について,無許諾で行えることとする趣旨及び内容について教えてください。(第47条の7)】ってゆーのもあって、そっちをみると「まさにドンピシャで当てはまる」気もする、のだけれど、法の解釈が正しいのかどうか、正直よく解らないんです。

*3:個人的には、「かなりえっちです****あすか配列」の配置変更が、本当に必要だったのだろうか?とか、そーゆーところも気になっていたりします。できればgoogleみたいなのをめざして、「x兆かな」規模のn-gramをもとに、配字設計できるといいんですけどね……。

*4:実際には、今の配列が【六百万分の一の正確性しかない、わけではない】のだけれど、【六百万倍もある母集団の代表として、ふさわしいソースを選出できたか?を見極める方法なんてない】ので……いつかは(web全体は無理としても)blog全体を対象にした「n-gramによる頻度調査」をして、それをもとにけん盤配列の設計/評価をしてみたいところです。