Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

利用可能な日本語コーパス調査 (2026-02)

かな漢字変換エンジン (akaza) の n-gram 統計データ生成に利用できるコーパスの調査結果。

現在使用中のコーパス

コーパス規模ライセンス
jawiki (CirrusSearch)~1.49M 記事CC BY-SA
青空文庫~17,800 作品 (~47MB)パブリックドメイン

追加候補: 大規模ウェブコーパス

Web クロールから構築された大規模日本語コーパス。 規模が桁違いに大きく、追加する場合はこれらが最も効果的。

CC-100 Japanese

項目
規模~258 億文字
ライセンスCommon Crawl 利用規約に準拠。研究・商用利用可
URLhttps://data.statmt.org/cc-100/
ダウンロードja.txt.xz を直接ダウンロード
形式プレーンテキスト (xz 圧縮)。文書間は空行区切り

評価: 最も導入しやすい。 単一ファイルをダウンロードするだけで使える。 ウェブテキストのためノイズ (定型文、非自然文) を含むが、規模の大きさで補える。

OSCAR Japanese

項目
規模~740 億文字 (OSCAR 23.10)
ライセンスCommon Crawl 利用規約に準拠。研究・商用利用可
URLhttps://huggingface.co/datasets/oscar-corpus/OSCAR-2301
形式JSONL + Zstandard 圧縮

CC-100 より大きく、KenLM ベースの品質フィルタリング済み。 HuggingFace からダウンロード可能。

mC4 Japanese

項目
規模~2,397 億文字
ライセンスODC-BY (商用利用可、要帰属表示)
URLhttps://huggingface.co/datasets/allenai/c4
形式JSONL (HuggingFace datasets)

CC-100/OSCAR の中で最大規模。CLD3 による言語検出フィルタリング済み。 ストレージと処理時間が必要だが、最も大量のデータを得られる。

CulturaX Japanese

項目
規模全言語で 6.3 兆トークン (16TB parquet)。日本語部分は不明だが相当量
ライセンスmC4 (ODC-BY) + OSCAR の規約に準拠
URLhttps://huggingface.co/datasets/uonlp/CulturaX
形式Parquet

mC4 と OSCAR を統合・重複除去・クリーニングしたデータセット。 両方を個別に使うより、これ一つで済む可能性がある。

Swallow Corpus

項目
規模v1: ~3,121 億文字 (21 スナップショット)、v2: さらに大規模 (94 スナップショット)
ライセンスCommon Crawl 利用規約に準拠。商用利用可
URLhttps://github.com/swallow-llm/swallow-corpus
形式Common Crawl から自分でビルドする必要あり

東工大が構築した最大規模の日本語ウェブコーパス。 品質フィルタリングが最も徹底されているが、ビルドに大量の計算資源が必要。

追加候補: 公的データ

国会会議録 (国会議事録)

項目
規模帝国議会から現在まで数十年分。大量
ライセンス政府公開データ。利用制限なし
URLhttps://kokkai.ndl.go.jp/ (検索)、https://kokkai.ndl.go.jp/api.html (API)
形式XML/JSON (REST API 経由)
取得方法API でバッチ取得。一括ダウンロードファイルはない

国会での発言の書き起こし。自然な話し言葉パターンを含む点が他のコーパスにない特徴。 ただし政治・行政の語彙に偏る。API からのスクレイピングが必要。

e-Gov 法令データ

項目
規模全法令 XML (~253MB 圧縮)
ライセンス政府データ。二次利用可
URLhttps://laws.e-gov.go.jp/bulkdownload/
形式XML

法令文のみのため語彙が極めて特殊。かな漢字変換の汎用コーパスとしては不向き。

裁判所判例データ

項目
規模65,855 件 (1947〜2024 年)
ライセンスCC0 (japanese-law-analysis/data_set)
URLhttps://github.com/japanese-law-analysis/data_set
形式JSON
別ソースNII 判例 HTML データ (要申請、学術研究目的のみ)

CC0 ライセンスで公開されているデータセットがある。 法律用語に偏るが、整った書き言葉の日本語。法律語彙のカバレッジ向上には有用。

利用不可 / 非推奨のコーパス

BCCWJ (現代日本語書き言葉均衡コーパス)

項目
規模1 億 430 万語
ライセンスオンライン検索は無料 (少納言/中納言)。バルクダウンロードは有償
URLhttps://clrd.ninjal.ac.jp/bccwj/

均衡コーパスとして理想的だが、バルクダウンロード不可 (有償)。 書籍・雑誌・新聞・ブログなど多ジャンルをカバー。 令和 6〜10 年度に 2 億語規模への拡張が予定されている (BCCWJ2)。

NWJC (国語研日本語ウェブコーパス)

項目
規模100 億語以上
ライセンスオンライン検索 (梵天) は無料。バルクダウンロードは言語資源協会 (GSK) 経由で有償
URLhttps://masayu-a.github.io/NWJC/

形態素解析・係り受け解析済みの大規模ウェブコーパスだが、バルクダウンロード不可

livedoor ニュースコーパス

項目
規模7,367 記事 (9 カテゴリ)
ライセンスCC BY-ND 2.1 JP (NoDerivatives)
URLhttps://www.rondhuit.com/download.html

ND (改変禁止) ライセンスが問題。n-gram 統計の生成・配布が「派生物」に該当する可能性。 規模も小さく (7,000 記事)、データも 2012 年と古い。

JParaCrawl

項目
規模2,100 万対訳文ペア
ライセンス研究利用のみ。商用利用不可 (NTT)
URLhttps://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/

対訳コーパスであり単言語コーパスではない。翻訳調テキストが多い。研究専用ライセンス。

NHK ニュース

一括ダウンロード可能なコーパスは存在しない。NHK のコンテンツは著作権で保護されており、 スクレイピングでの収集は利用規約上問題がある。

京都大学テキストコーパス

毎日新聞 1995 年版の CD-ROM が別途必要。新聞本文は含まれず注釈データのみ配布。

推奨度まとめ

コーパス規模ライセンス導入容易性推奨度
CC-100 (ja)258 億字自由簡単 (単一ファイル)
mC4 (ja)2,397 億字ODC-BY中 (HuggingFace)
OSCAR (ja)740 億字自由中 (HuggingFace)
CulturaX (ja)大規模ODC-BY + OSCAR中 (HuggingFace)
Swallow Corpus3,121 億字+自由難 (自前ビルド)
国会会議録大量パブリックドメイン中 (API)
裁判所判例65,855 件CC0簡単 (GitHub)中 (法律特化)
BCCWJ1 億語有償不可利用不可
NWJC100 億語有償不可利用不可
livedoor7,367 記事CC BY-ND簡単ND で非推奨

結論: 現状の jawiki + 青空文庫に追加するなら、CC-100 Japanese が最も導入しやすい。 単一ファイル (ja.txt.xz) をダウンロードするだけで 258 億文字のウェブ日本語テキストが得られる。 より大規模なデータが必要なら mC4 や CulturaX も選択肢になる。

ただし、ウェブコーパスはノイズ (広告文、定型文、機械翻訳テキスト等) を含むため、 品質フィルタリングの仕組みを検討する必要がある。