CirrusSearch 日本語コーパス調査 (2026-02)
結論
現状の jawiki + 青空文庫 の組み合わせが最も効率的であり、他の CirrusSearch プロジェクトを追加する必要はない。
調査した 3 プロジェクトの評価:
| プロジェクト | テキスト量 | テキストの質 | 結論 |
|---|---|---|---|
| jawikisource | 64.8M words | 法令文書・漢文・棋譜等が大半。有用部分は数百ページ | 追加不要 |
| jawikinews | 1.75M words | 質は良いが規模が小さすぎる | 追加不要 |
| jawikibooks | 17.5M words | 大半が法律コンメンタール。有用部分は数百ページ | 追加不要 |
参考: jawiki は数十億ワード規模、青空文庫は ~17,800 作品 (~47MB)。
CirrusSearch ダンプについて
Wikimedia の CirrusSearch ダンプには、日本語 Wikipedia 以外にも複数の日本語プロジェクトが含まれている。 ダンプは毎週更新され、以下の URL から取得できる。
- 新 URL: https://dumps.wikimedia.org/other/cirrus_search_index/
- 旧 URL: https://dumps.wikimedia.org/other/cirrussearch/ (DEPRECATED)
各プロジェクトには _content (本文) と _general (その他) の 2 種類のインデックスがある。
すべて同じ NDJSON 形式のため、既存の scripts/extract-cirrus.py を流用可能。
ダンプ URL の形式:
https://dumps.wikimedia.org/other/cirrus_search_index/{YYYYMMDD}/index_name={project}_content/
日本語プロジェクト一覧
| プロジェクト | 内容 | コーパスとしての有用性 |
|---|---|---|
| jawiki | 日本語 Wikipedia | 最大規模。本プロジェクトで使用中 |
| jawikisource | ウィキソース(著作権切れ文献) | 法令文書・漢文・古文が中心。詳細後述 |
| jawikibooks | ウィキブックス(教科書) | 法律コンメンタールが大半。詳細後述 |
| jawikinews | ウィキニュース | 質は良いが規模小。詳細後述 |
| jawikiquote | ウィキクォート(引用句集) | 短文中心。量は少ない |
| jawikiversity | ウィキバーシティ(学習教材) | 量は少ない |
| jawikivoyage | ウィキボヤージュ(旅行ガイド) | 固有名詞が多め。量は少ない |
| jawiktionary | ウィクショナリー(辞書) | 辞書的記述が中心 |
| jawikimedia | ウィキメディア(メタ的ページ) | 運営関連テキスト。コーパスとしては不向き |
jawikisource の調査
| 項目 | 値 |
|---|---|
| 記事数 | 17,008 |
| テキスト量 | 64.8M words |
青空文庫との重複
青空文庫 ~17,000 作品のうち、Wikisource にインポート済みはわずか 315 (約 1.8%)。 jawikisource は青空文庫の代替にはならない。
内容の内訳
jawikisource の大半はかな漢字変換に不向きなコンテンツで占められている。
| カテゴリ | ページ数 | かな漢字変換への有用性 |
|---|---|---|
| PD-JapanGov (法令・政府文書) | 3,294 | 不向き: 法令文体 |
| PD-JapanGov-old (旧法令) | 2,155 | 不向き: 法令文体 |
| PD-old (古い著作物全般) | 3,490 | 不向き: 古文混在 |
| CC-BY-SA-3.0 (翻訳物) | 2,752 | 不向き: 翻訳調 |
| PD-old-50-1996 (著作権切れ) | 1,506 | 不向き: 古文混在 |
| キリスト教 | 1,269 | 不向き: 翻訳宗教文献 |
| 漢詩 | 53 | 不向き: 漢文 |
| 万葉集 / 古今和歌集 | 51 | 不向き: 古文 |
| 棋譜 | subcats あり | 不向き: 自然言語ではない |
| 人口統計データ | 50州分 | 不向き: 統計テーブル |
| 日本の小説 | 290 | 有用だが青空文庫と重複する可能性大 |
| 青空文庫からインポート | 315 | 青空文庫と完全に重複 |
| 随筆 | 66 | 有用 |
有用な近代日本語テキストは数百ページ程度しかなく、フィルタリングコストに見合わない。
jawikinews の調査
| 項目 | 値 |
|---|---|
| 記事数 | 4,073 |
| テキスト量 | 1.75M words |
| 記事サイズ | 平均 ~3KB |
| 期間 | 2005年〜2025年 |
主要トピック:
| カテゴリ | ページ数 |
|---|---|
| 日本 | 3,053 |
| 社会 | 1,698 |
| スポーツ | 896 |
| 政治 | 576 |
| 文化 | 500 |
| 経済 | 400 |
テキストの質は良い(現代ニュース記事体で自然な日本語)。 しかし 175 万ワードと規模が小さすぎる。jawiki が数十億ワード規模であることを考えると量的インパクトは無視できる程度。
jawikibooks の調査
| 項目 | 値 |
|---|---|
| 記事数 | 17,378 |
| テキスト量 | 17.5M words |
| 記事サイズ | 平均 ~3KB |
主要コンテンツの内訳:
| コンテンツ | 推定ページ数 | 備考 |
|---|---|---|
| 法律コンメンタール (逐条解説) | ~4,700+ | 民法1,327、会社法1,113、刑訴法738、刑法315 等 |
| 高校教科書 | 217 | 世界史B、英語文法など。自然な説明文で質は良い |
| 大学入試 | 165 | |
| レシピ / 料理 | 196 | 材料リスト+手順。文体が特殊 |
| プログラミング | 162+ | コード中心。日本語テキストとしては薄い |
| 中学校教育 | 73 |
全体の大部分を法律コンメンタールが占める。 コンメンタールは「条文引用 + 短い解説」の定型的な構造で、法律用語の偏りが大きい。 教科書系の説明文は質が良いが数百ページ程度しかなく、フィルタリングコストに見合わない。