「雑記/えもじならべあそび」における、全2,440,461文字についての1〜3文字連接頻度、表計算ドキュメント版。
(未来:大規模N-gramデータが公開されていた……改正著作権法の施行後に公開されたものらしく、作者提示の利用条件で安心して使えるところも◎。 - 雑記/えもじならべあそび)
(未来:452万文字分の、はてなダイアリー日記内かな連接頻度データ。 - 雑記/えもじならべあそび)
(過去:「雑記/えもじならべあそび」における、全2,440,461文字についての2文字連接頻度。)
(過去:自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き))
今日のメモにも書いたとおり、さすがにそのまま日記に貼るのはだめだろうなぁ……と。
そこで、OpenOffice.orgなどで読み書きできる「ODS形式」と、MicrosoftExcelなどで読み書きできる「XLS形式」の2形式を用意しました。
- ODS形式が読める環境では、ODS形式
(642kB)(922kB)をダウンロードいただくことをお勧めします。 - XLS形式ファイルはサイズが10倍近くになってしまったので、ZIP方式で圧縮
(1438kB)(1726kB)してからアップロードしています。
この表計算ドキュメントには、「1文字出現頻度」「2文字連接頻度」「3文字連接頻度」を収容しています。
3文字連接頻度はそのまま出現頻度順でならべても役に立つとは思えないので、3文字中の2文字目をキーにしてシートを分割しています。
(分割手順については、自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き)の最下部に追記しました。分割されたテキストを表計算シートに貼る作業は手作業でしたが^^;。)
……なんの役に立つかは不明ですが、ひとまず。
表計算ソフトをお持ちでない方は……
どちらのファイルでも読み書きできる、OpenOffice.orgをどーぞ。
2007年7月9日0:23:09追記
シートを1枚追加したため、それぞれ容量が大きくなってしまいました……orz。