利用可能な日本語コーパス調査 (2026-02)

かな漢字変換エンジン (akaza) の n-gram 統計データ生成に利用できるコーパスの調査結果。

現在使用中のコーパス

コーパス	規模	ライセンス
jawiki (CirrusSearch)	~1.49M 記事	CC BY-SA
青空文庫	~17,800 作品 (~47MB)	パブリックドメイン

追加候補: 大規模ウェブコーパス

Web クロールから構築された大規模日本語コーパス。規模が桁違いに大きく、追加する場合はこれらが最も効果的。

CC-100 Japanese

項目	値
規模	~258 億文字
ライセンス	Common Crawl 利用規約に準拠。研究・商用利用可
URL	https://data.statmt.org/cc-100/
ダウンロード	`ja.txt.xz` を直接ダウンロード
形式	プレーンテキスト (xz 圧縮)。文書間は空行区切り

評価: 最も導入しやすい。 単一ファイルをダウンロードするだけで使える。ウェブテキストのためノイズ (定型文、非自然文) を含むが、規模の大きさで補える。

OSCAR Japanese

項目	値
規模	~740 億文字 (OSCAR 23.10)
ライセンス	Common Crawl 利用規約に準拠。研究・商用利用可
URL	https://huggingface.co/datasets/oscar-corpus/OSCAR-2301
形式	JSONL + Zstandard 圧縮

CC-100 より大きく、KenLM ベースの品質フィルタリング済み。 HuggingFace からダウンロード可能。

mC4 Japanese

項目	値
規模	~2,397 億文字
ライセンス	ODC-BY (商用利用可、要帰属表示)
URL	https://huggingface.co/datasets/allenai/c4
形式	JSONL (HuggingFace datasets)

CC-100/OSCAR の中で最大規模。CLD3 による言語検出フィルタリング済み。ストレージと処理時間が必要だが、最も大量のデータを得られる。

CulturaX Japanese

項目	値
規模	全言語で 6.3 兆トークン (16TB parquet)。日本語部分は不明だが相当量
ライセンス	mC4 (ODC-BY) + OSCAR の規約に準拠
URL	https://huggingface.co/datasets/uonlp/CulturaX
形式	Parquet

mC4 と OSCAR を統合・重複除去・クリーニングしたデータセット。両方を個別に使うより、これ一つで済む可能性がある。

Swallow Corpus

項目	値
規模	v1: ~3,121 億文字 (21 スナップショット)、v2: さらに大規模 (94 スナップショット)
ライセンス	Common Crawl 利用規約に準拠。商用利用可
URL	https://github.com/swallow-llm/swallow-corpus
形式	Common Crawl から自分でビルドする必要あり

東工大が構築した最大規模の日本語ウェブコーパス。品質フィルタリングが最も徹底されているが、ビルドに大量の計算資源が必要。

追加候補: 公的データ

国会会議録 (国会議事録)

項目	値
規模	帝国議会から現在まで数十年分。大量
ライセンス	政府公開データ。利用制限なし
URL	https://kokkai.ndl.go.jp/ (検索)、https://kokkai.ndl.go.jp/api.html (API)
形式	XML/JSON (REST API 経由)
取得方法	API でバッチ取得。一括ダウンロードファイルはない

国会での発言の書き起こし。自然な話し言葉パターンを含む点が他のコーパスにない特徴。ただし政治・行政の語彙に偏る。API からのスクレイピングが必要。

e-Gov 法令データ

項目	値
規模	全法令 XML (~253MB 圧縮)
ライセンス	政府データ。二次利用可
URL	https://laws.e-gov.go.jp/bulkdownload/
形式	XML

法令文のみのため語彙が極めて特殊。かな漢字変換の汎用コーパスとしては不向き。

裁判所判例データ

項目	値
規模	65,855 件 (1947〜2024 年)
ライセンス	CC0 (japanese-law-analysis/data_set)
URL	https://github.com/japanese-law-analysis/data_set
形式	JSON
別ソース	NII 判例 HTML データ (要申請、学術研究目的のみ)

CC0 ライセンスで公開されているデータセットがある。法律用語に偏るが、整った書き言葉の日本語。法律語彙のカバレッジ向上には有用。

利用不可 / 非推奨のコーパス

BCCWJ (現代日本語書き言葉均衡コーパス)

項目	値
規模	1 億 430 万語
ライセンス	オンライン検索は無料 (少納言/中納言)。バルクダウンロードは有償
URL	https://clrd.ninjal.ac.jp/bccwj/

均衡コーパスとして理想的だが、バルクダウンロード不可 (有償)。書籍・雑誌・新聞・ブログなど多ジャンルをカバー。令和 6〜10 年度に 2 億語規模への拡張が予定されている (BCCWJ2)。

NWJC (国語研日本語ウェブコーパス)

項目	値
規模	100 億語以上
ライセンス	オンライン検索 (梵天) は無料。バルクダウンロードは言語資源協会 (GSK) 経由で有償
URL	https://masayu-a.github.io/NWJC/

形態素解析・係り受け解析済みの大規模ウェブコーパスだが、バルクダウンロード不可。

livedoor ニュースコーパス

項目	値
規模	7,367 記事 (9 カテゴリ)
ライセンス	CC BY-ND 2.1 JP (NoDerivatives)
URL	https://www.rondhuit.com/download.html

ND (改変禁止) ライセンスが問題。n-gram 統計の生成・配布が「派生物」に該当する可能性。規模も小さく (7,000 記事)、データも 2012 年と古い。

JParaCrawl

項目	値
規模	2,100 万対訳文ペア
ライセンス	研究利用のみ。商用利用不可 (NTT)
URL	https://www.kecl.ntt.co.jp/icl/lirg/jparacrawl/

対訳コーパスであり単言語コーパスではない。翻訳調テキストが多い。研究専用ライセンス。

NHK ニュース

一括ダウンロード可能なコーパスは存在しない。NHK のコンテンツは著作権で保護されており、スクレイピングでの収集は利用規約上問題がある。

京都大学テキストコーパス

毎日新聞 1995 年版の CD-ROM が別途必要。新聞本文は含まれず注釈データのみ配布。

推奨度まとめ

コーパス	規模	ライセンス	導入容易性	推奨度
CC-100 (ja)	258 億字	自由	簡単 (単一ファイル)	高
mC4 (ja)	2,397 億字	ODC-BY	中 (HuggingFace)	高
OSCAR (ja)	740 億字	自由	中 (HuggingFace)	高
CulturaX (ja)	大規模	ODC-BY + OSCAR	中 (HuggingFace)	高
Swallow Corpus	3,121 億字+	自由	難 (自前ビルド)	中
国会会議録	大量	パブリックドメイン	中 (API)	中
裁判所判例	65,855 件	CC0	簡単 (GitHub)	中 (法律特化)
BCCWJ	1 億語	有償	不可	利用不可
NWJC	100 億語	有償	不可	利用不可
livedoor	7,367 記事	CC BY-ND	簡単	ND で非推奨

結論: 現状の jawiki + 青空文庫に追加するなら、CC-100 Japanese が最も導入しやすい。単一ファイル (ja.txt.xz) をダウンロードするだけで 258 億文字のウェブ日本語テキストが得られる。より大規模なデータが必要なら mC4 や CulturaX も選択肢になる。

ただし、ウェブコーパスはノイズ (広告文、定型文、機械翻訳テキスト等) を含むため、品質フィルタリングの仕組みを検討する必要がある。

Keyboard shortcuts

Akaza ドキュメント