Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

jawiktionary (日本語版ウィクショナリー) 評価 (2026-02)

概要

Japanese Wiktionary (jawiktionary) を n-gram 統計データ生成のコーパスとして利用可能か評価した。

結論: コーパスとしての量が不十分であり、導入は非推奨。

データ量

項目
総エントリ数 (namespace 0)約 464,874
総テキスト量約 6,790 万文字
うち日本語文字約 2,400 万文字 (35%)
CirrusSearch dump サイズ329 MB (gzip)
1 エントリ平均テキスト長約 146 文字

他コーパスとの比較

コーパス日本語テキスト量比率
jawiki (Wikipedia)~30 億文字125x
CC-100 (ja)~258 億文字1,075x
青空文庫~5,200 万文字2.2x
jawiktionary~2,400 万文字1x

青空文庫の約半分、jawiki の 1/125 程度。既存パイプラインに追加しても全体の 1% 未満の増加にしかならない。

コンテンツの特性

見出し語の言語分布

文字種エントリ数割合
CJK / かな (日本語・中国語)161,17834.7%
ラテン文字 (英語・欧州語)179,74338.7%
その他 (韓国語、アラビア語等)123,95326.7%

エントリの 約 2/3 が外国語の見出し語 であり、日本語での短い定義文が付いているだけ。

テキストの内容

  • 辞書定義文: 「〜すること。」「〜もの。」「〜の状態。」等の定型パターン
  • IPA 発音記号 (エントリの約 69% に含まれる)
  • 多言語翻訳セクション (エントリの約 30%)
  • 活用表 (エントリの約 13%)
  • 用例: 文学作品からの引用を含むものもあるが少数

n-gram 統計への影響

  • 辞書特有の定型表現に偏った bigram が生成される
  • 外国語テキスト、IPA 記号がノイズとして混入する
  • 自然な日本語の文章としての質が低い

データ入手方法

CirrusSearch dump として入手可能。既存の extract-cirrus.py でそのまま処理できる。

https://dumps.wikimedia.org/other/cirrussearch/{DATE}/jawiktionary-{DATE}-cirrussearch-content.json.gz

評価

観点評価
データ量不十分 (青空文庫の半分以下)
テキスト品質低 (辞書定型文、外国語混在)
導入容易性高 (既存スクリプトで対応可)
総合判断非推奨

量・質ともに既存コーパス (jawiki + 青空文庫 + CC-100) に追加する価値がない。