(改正著作権法)日本語入力法を設計するためのn-gramを取るために、「自分が著作権を持っていない&権利放棄もされていないテキスト」についても交ぜていいことになった……のだろうか?
ダウンロード違法化の話だけが先行してる気もする「改正著作権法」のはなし、なのだけれど。
主に検索エンジン&SocialIME方面のために作られたと思われる、【第47条の7】というところについて、もしかすると「日本語入力用配列を作るうえで必要となる、n-gramのデータ」作成用に、方々のテキストを収集→処理してもよいのだろうか?というところが気になった*1。
原文は↓のpp.8-9。
要点としては、↓のように解説されてる*2。
■ 情報解析研究のための複製等に係る権利制限
コンピュータ等を用いた情報解析のために行われる複製等について,権利制限が認められました。(第47条の7関係)
誰か、これについて知ってる人が居ましたら、お教えください……*3。
……ってゆーか、改正著作権法についてのパブリックコメント募集時に、この点について明示するように!ッてコメントをキャストしなかったから、こーゆーコトで悩む必要が出てきてしまったというところに、いまさら気づいて意気消沈……orz。
パブリックコメントのところは、意外とスルーする時があったのだけれど、今度から気をつけなきゃだめだな……。
2010年1月4日23:10:13追記。
たとえば↑……Blogだけでも「テキスト換算12TB(≒7兆2千億かな?)」とか、それぐらいのソースがある。
今までの「120万かな規模」とかで作られた配列だと、Blog全体と比較したときに「7桁くらい足りない」ことになる。
もしも、Blog全文を全部N-gramして配列設計に使えたら、6百万倍正確性が増す……と*4。
もちろん、ビジネスメールとか、非Internet領域のはここには含まれない……けど、基本的には「素に近い状態で書く文章≒推敲段階で書く文章」という関係に近づいてはいそうだから、けん盤配列を評価したり設計したりする上で、十分なデータとして使えそうな気はする。
*1:従来は「(日本では著作権を放棄できないけど)パブリックドメインになっているもの」が使える程度で、他は基本的に「自分が著作権を持ってるもの」しか使えなかった。引用という手もあるのだけれど、これでは「統計処理をすると同一性保持に違反してしまう」し。今回の【第47条の7】が「日本語入力法設計のための、n-gram生成」にも適用されるのであれば、使ってよいソースの幅がすごく広がる。
*2:同ページの下方に【問5 情報解析研究のための複製等について,無許諾で行えることとする趣旨及び内容について教えてください。(第47条の7)】ってゆーのもあって、そっちをみると「まさにドンピシャで当てはまる」気もする、のだけれど、法の解釈が正しいのかどうか、正直よく解らないんです。
*3:個人的には、「かなりえっちです****あすか配列」の配置変更が、本当に必要だったのだろうか?とか、そーゆーところも気になっていたりします。できればgoogleみたいなのをめざして、「x兆かな」規模のn-gramをもとに、配字設計できるといいんですけどね……。
*4:実際には、今の配列が【六百万分の一の正確性しかない、わけではない】のだけれど、【六百万倍もある母集団の代表として、ふさわしいソースを選出できたか?を見極める方法なんてない】ので……いつかは(web全体は無理としても)blog全体を対象にした「n-gramによる頻度調査」をして、それをもとにけん盤配列の設計/評価をしてみたいところです。