利用可能な日本語コーパス調査 (2026-02)
かな漢字変換エンジン (akaza) の n-gram 統計データ生成に利用できるコーパスの調査結果。
現在使用中のコーパス
| コーパス | 規模 | ライセンス |
|---|---|---|
| jawiki (CirrusSearch) | ~1.49M 記事 | CC BY-SA |
| 青空文庫 | ~17,800 作品 (~47MB) | パブリックドメイン |
追加候補: 大規模ウェブコーパス
Web クロールから構築された大規模日本語コーパス。 規模が桁違いに大きく、追加する場合はこれらが最も効果的。
CC-100 Japanese
| 項目 | 値 |
|---|---|
| 規模 | ~258 億文字 |
| ライセンス | Common Crawl 利用規約に準拠。研究・商用利用可 |
| URL | https://data.statmt.org/cc-100/ |
| ダウンロード | ja.txt.xz を直接ダウンロード |
| 形式 | プレーンテキスト (xz 圧縮)。文書間は空行区切り |
評価: 最も導入しやすい。 単一ファイルをダウンロードするだけで使える。 ウェブテキストのためノイズ (定型文、非自然文) を含むが、規模の大きさで補える。
OSCAR Japanese
| 項目 | 値 |
|---|---|
| 規模 | ~740 億文字 (OSCAR 23.10) |
| ライセンス | Common Crawl 利用規約に準拠。研究・商用利用可 |
| URL | https://huggingface.co/datasets/oscar-corpus/OSCAR-2301 |
| 形式 | JSONL + Zstandard 圧縮 |
CC-100 より大きく、KenLM ベースの品質フィルタリング済み。 HuggingFace からダウンロード可能。
mC4 Japanese
| 項目 | 値 |
|---|---|
| 規模 | ~2,397 億文字 |
| ライセンス | ODC-BY (商用利用可、要帰属表示) |
| URL | https://huggingface.co/datasets/allenai/c4 |
| 形式 | JSONL (HuggingFace datasets) |
CC-100/OSCAR の中で最大規模。CLD3 による言語検出フィルタリング済み。 ストレージと処理時間が必要だが、最も大量のデータを得られる。
CulturaX Japanese
| 項目 | 値 |
|---|---|
| 規模 | 全言語で 6.3 兆トークン (16TB parquet)。日本語部分は不明だが相当量 |
| ライセンス | mC4 (ODC-BY) + OSCAR の規約に準拠 |
| URL | https://huggingface.co/datasets/uonlp/CulturaX |
| 形式 | Parquet |
mC4 と OSCAR を統合・重複除去・クリーニングしたデータセット。 両方を個別に使うより、これ一つで済む可能性がある。
Swallow Corpus
| 項目 | 値 |
|---|---|
| 規模 | v1: ~3,121 億文字 (21 スナップショット)、v2: さらに大規模 (94 スナップショット) |
| ライセンス | Common Crawl 利用規約に準拠。商用利用可 |
| URL | https://github.com/swallow-llm/swallow-corpus |
| 形式 | Common Crawl から自分でビルドする必要あり |
東工大が構築した最大規模の日本語ウェブコーパス。 品質フィルタリングが最も徹底されているが、ビルドに大量の計算資源が必要。
追加候補: 公的データ
国会会議録 (国会議事録)
| 項目 | 値 |
|---|---|
| 規模 | 帝国議会から現在まで数十年分。大量 |
| ライセンス | 政府公開データ。利用制限なし |
| URL | https://kokkai.ndl.go.jp/ (検索)、https://kokkai.ndl.go.jp/api.html (API) |
| 形式 | XML/JSON (REST API 経由) |
| 取得方法 | API でバッチ取得。一括ダウンロードファイルはない |
国会での発言の書き起こし。自然な話し言葉パターンを含む点が他のコーパスにない特徴。 ただし政治・行政の語彙に偏る。API からのスクレイピングが必要。
e-Gov 法令データ
| 項目 | 値 |
|---|---|
| 規模 | 全法令 XML (~253MB 圧縮) |
| ライセンス | 政府データ。二次利用可 |
| URL | https://laws.e-gov.go.jp/bulkdownload/ |
| 形式 | XML |
法令文のみのため語彙が極めて特殊。かな漢字変換の汎用コーパスとしては不向き。
裁判所判例データ
| 項目 | 値 |
|---|---|
| 規模 | 65,855 件 (1947〜2024 年) |
| ライセンス | CC0 (japanese-law-analysis/data_set) |
| URL | https://github.com/japanese-law-analysis/data_set |
| 形式 | JSON |
| 別ソース | NII 判例 HTML データ (要申請、学術研究目的のみ) |
CC0 ライセンスで公開されているデータセットがある。 法律用語に偏るが、整った書き言葉の日本語。法律語彙のカバレッジ向上には有用。
利用不可 / 非推奨のコーパス
BCCWJ (現代日本語書き言葉均衡コーパス)
| 項目 | 値 |
|---|---|
| 規模 | 1 億 430 万語 |
| ライセンス | オンライン検索は無料 (少納言/中納言)。バルクダウンロードは有償 |
| URL | https://clrd.ninjal.ac.jp/bccwj/ |
均衡コーパスとして理想的だが、バルクダウンロード不可 (有償)。 書籍・雑誌・新聞・ブログなど多ジャンルをカバー。 令和 6〜10 年度に 2 億語規模への拡張が予定されている (BCCWJ2)。
NWJC (国語研日本語ウェブコーパス)
| 項目 | 値 |
|---|---|
| 規模 | 100 億語以上 |
| ライセンス | オンライン検索 (梵天) は無料。バルクダウンロードは言語資源協会 (GSK) 経由で有償 |
| URL | https://masayu-a.github.io/NWJC/ |
形態素解析・係り受け解析済みの大規模ウェブコーパスだが、バルクダウンロード不可。
livedoor ニュースコーパス
| 項目 | 値 |
|---|---|
| 規模 | 7,367 記事 (9 カテゴリ) |
| ライセンス | CC BY-ND 2.1 JP (NoDerivatives) |
| URL | https://www.rondhuit.com/download.html |
ND (改変禁止) ライセンスが問題。n-gram 統計の生成・配布が「派生物」に該当する可能性。 規模も小さく (7,000 記事)、データも 2012 年と古い。
JParaCrawl
| 項目 | 値 |
|---|---|
| 規模 | 2,100 万対訳文ペア |
| ライセンス | 研究利用のみ。商用利用不可 (NTT) |
| URL | https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/ |
対訳コーパスであり単言語コーパスではない。翻訳調テキストが多い。研究専用ライセンス。
NHK ニュース
一括ダウンロード可能なコーパスは存在しない。NHK のコンテンツは著作権で保護されており、 スクレイピングでの収集は利用規約上問題がある。
京都大学テキストコーパス
毎日新聞 1995 年版の CD-ROM が別途必要。新聞本文は含まれず注釈データのみ配布。
推奨度まとめ
| コーパス | 規模 | ライセンス | 導入容易性 | 推奨度 |
|---|---|---|---|---|
| CC-100 (ja) | 258 億字 | 自由 | 簡単 (単一ファイル) | 高 |
| mC4 (ja) | 2,397 億字 | ODC-BY | 中 (HuggingFace) | 高 |
| OSCAR (ja) | 740 億字 | 自由 | 中 (HuggingFace) | 高 |
| CulturaX (ja) | 大規模 | ODC-BY + OSCAR | 中 (HuggingFace) | 高 |
| Swallow Corpus | 3,121 億字+ | 自由 | 難 (自前ビルド) | 中 |
| 国会会議録 | 大量 | パブリックドメイン | 中 (API) | 中 |
| 裁判所判例 | 65,855 件 | CC0 | 簡単 (GitHub) | 中 (法律特化) |
| BCCWJ | 1 億語 | 有償 | 不可 | 利用不可 |
| NWJC | 100 億語 | 有償 | 不可 | 利用不可 |
| livedoor | 7,367 記事 | CC BY-ND | 簡単 | ND で非推奨 |
結論: 現状の jawiki + 青空文庫に追加するなら、CC-100 Japanese が最も導入しやすい。
単一ファイル (ja.txt.xz) をダウンロードするだけで 258 億文字のウェブ日本語テキストが得られる。
より大規模なデータが必要なら mC4 や CulturaX も選択肢になる。
ただし、ウェブコーパスはノイズ (広告文、定型文、機械翻訳テキスト等) を含むため、 品質フィルタリングの仕組みを検討する必要がある。