Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

CirrusSearch 日本語コーパス調査 (2026-02)

結論

現状の jawiki + 青空文庫 の組み合わせが最も効率的であり、他の CirrusSearch プロジェクトを追加する必要はない。

調査した 3 プロジェクトの評価:

プロジェクトテキスト量テキストの質結論
jawikisource64.8M words法令文書・漢文・棋譜等が大半。有用部分は数百ページ追加不要
jawikinews1.75M words質は良いが規模が小さすぎる追加不要
jawikibooks17.5M words大半が法律コンメンタール。有用部分は数百ページ追加不要

参考: jawiki は数十億ワード規模、青空文庫は ~17,800 作品 (~47MB)。


CirrusSearch ダンプについて

Wikimedia の CirrusSearch ダンプには、日本語 Wikipedia 以外にも複数の日本語プロジェクトが含まれている。 ダンプは毎週更新され、以下の URL から取得できる。

  • 新 URL: https://dumps.wikimedia.org/other/cirrus_search_index/
  • 旧 URL: https://dumps.wikimedia.org/other/cirrussearch/ (DEPRECATED)

各プロジェクトには _content (本文) と _general (その他) の 2 種類のインデックスがある。 すべて同じ NDJSON 形式のため、既存の scripts/extract-cirrus.py を流用可能。

ダンプ URL の形式:

https://dumps.wikimedia.org/other/cirrus_search_index/{YYYYMMDD}/index_name={project}_content/

日本語プロジェクト一覧

プロジェクト内容コーパスとしての有用性
jawiki日本語 Wikipedia最大規模。本プロジェクトで使用中
jawikisourceウィキソース(著作権切れ文献)法令文書・漢文・古文が中心。詳細後述
jawikibooksウィキブックス(教科書)法律コンメンタールが大半。詳細後述
jawikinewsウィキニュース質は良いが規模小。詳細後述
jawikiquoteウィキクォート(引用句集)短文中心。量は少ない
jawikiversityウィキバーシティ(学習教材)量は少ない
jawikivoyageウィキボヤージュ(旅行ガイド)固有名詞が多め。量は少ない
jawiktionaryウィクショナリー(辞書)辞書的記述が中心
jawikimediaウィキメディア(メタ的ページ)運営関連テキスト。コーパスとしては不向き

jawikisource の調査

項目
記事数17,008
テキスト量64.8M words

青空文庫との重複

青空文庫 ~17,000 作品のうち、Wikisource にインポート済みはわずか 315 (約 1.8%)。 jawikisource は青空文庫の代替にはならない。

内容の内訳

jawikisource の大半はかな漢字変換に不向きなコンテンツで占められている。

カテゴリページ数かな漢字変換への有用性
PD-JapanGov (法令・政府文書)3,294不向き: 法令文体
PD-JapanGov-old (旧法令)2,155不向き: 法令文体
PD-old (古い著作物全般)3,490不向き: 古文混在
CC-BY-SA-3.0 (翻訳物)2,752不向き: 翻訳調
PD-old-50-1996 (著作権切れ)1,506不向き: 古文混在
キリスト教1,269不向き: 翻訳宗教文献
漢詩53不向き: 漢文
万葉集 / 古今和歌集51不向き: 古文
棋譜subcats あり不向き: 自然言語ではない
人口統計データ50州分不向き: 統計テーブル
日本の小説290有用だが青空文庫と重複する可能性大
青空文庫からインポート315青空文庫と完全に重複
随筆66有用

有用な近代日本語テキストは数百ページ程度しかなく、フィルタリングコストに見合わない。


jawikinews の調査

項目
記事数4,073
テキスト量1.75M words
記事サイズ平均 ~3KB
期間2005年〜2025年

主要トピック:

カテゴリページ数
日本3,053
社会1,698
スポーツ896
政治576
文化500
経済400

テキストの質は良い(現代ニュース記事体で自然な日本語)。 しかし 175 万ワードと規模が小さすぎる。jawiki が数十億ワード規模であることを考えると量的インパクトは無視できる程度。


jawikibooks の調査

項目
記事数17,378
テキスト量17.5M words
記事サイズ平均 ~3KB

主要コンテンツの内訳:

コンテンツ推定ページ数備考
法律コンメンタール (逐条解説)~4,700+民法1,327、会社法1,113、刑訴法738、刑法315 等
高校教科書217世界史B、英語文法など。自然な説明文で質は良い
大学入試165
レシピ / 料理196材料リスト+手順。文体が特殊
プログラミング162+コード中心。日本語テキストとしては薄い
中学校教育73

全体の大部分を法律コンメンタールが占める。 コンメンタールは「条文引用 + 短い解説」の定型的な構造で、法律用語の偏りが大きい。 教科書系の説明文は質が良いが数百ページ程度しかなく、フィルタリングコストに見合わない。