jawiktionary (日本語版ウィクショナリー) 評価 (2026-02)
概要
Japanese Wiktionary (jawiktionary) を n-gram 統計データ生成のコーパスとして利用可能か評価した。
結論: コーパスとしての量が不十分であり、導入は非推奨。
データ量
| 項目 | 値 |
|---|---|
| 総エントリ数 (namespace 0) | 約 464,874 |
| 総テキスト量 | 約 6,790 万文字 |
| うち日本語文字 | 約 2,400 万文字 (35%) |
| CirrusSearch dump サイズ | 329 MB (gzip) |
| 1 エントリ平均テキスト長 | 約 146 文字 |
他コーパスとの比較
| コーパス | 日本語テキスト量 | 比率 |
|---|---|---|
| jawiki (Wikipedia) | ~30 億文字 | 125x |
| CC-100 (ja) | ~258 億文字 | 1,075x |
| 青空文庫 | ~5,200 万文字 | 2.2x |
| jawiktionary | ~2,400 万文字 | 1x |
青空文庫の約半分、jawiki の 1/125 程度。既存パイプラインに追加しても全体の 1% 未満の増加にしかならない。
コンテンツの特性
見出し語の言語分布
| 文字種 | エントリ数 | 割合 |
|---|---|---|
| CJK / かな (日本語・中国語) | 161,178 | 34.7% |
| ラテン文字 (英語・欧州語) | 179,743 | 38.7% |
| その他 (韓国語、アラビア語等) | 123,953 | 26.7% |
エントリの 約 2/3 が外国語の見出し語 であり、日本語での短い定義文が付いているだけ。
テキストの内容
- 辞書定義文: 「〜すること。」「〜もの。」「〜の状態。」等の定型パターン
- IPA 発音記号 (エントリの約 69% に含まれる)
- 多言語翻訳セクション (エントリの約 30%)
- 活用表 (エントリの約 13%)
- 用例: 文学作品からの引用を含むものもあるが少数
n-gram 統計への影響
- 辞書特有の定型表現に偏った bigram が生成される
- 外国語テキスト、IPA 記号がノイズとして混入する
- 自然な日本語の文章としての質が低い
データ入手方法
CirrusSearch dump として入手可能。既存の extract-cirrus.py でそのまま処理できる。
https://dumps.wikimedia.org/other/cirrussearch/{DATE}/jawiktionary-{DATE}-cirrussearch-content.json.gz
評価
| 観点 | 評価 |
|---|---|
| データ量 | 不十分 (青空文庫の半分以下) |
| テキスト品質 | 低 (辞書定型文、外国語混在) |
| 導入容易性 | 高 (既存スクリプトで対応可) |
| 総合判断 | 非推奨 |
量・質ともに既存コーパス (jawiki + 青空文庫 + CC-100) に追加する価値がない。