BAD 傾向分析レポート (2026-02-16)
概要
- コミット:
917ec986(main) - corpus-stats: v2026.0216.0
- 評価日: 2026-02-16
- Good: 6,727 / Top-5: 345 / Bad: 3,993 / Recall: 93.19%
BAD 3,993件の内訳を分類し、改善の方向性を検討する。
カテゴリ別内訳
| カテゴリ | 件数 | 割合 | 対処方針 |
|---|---|---|---|
| 同音異義語・誤変換 | 3,504 | 87.8% | コーパス / bigram / スコアリング改善 |
| 表記揺れ(ひらがな⇔漢字・カタカナ) | 367 | 9.2% | accept.tsv でフィルタ |
| 数字含み文の誤変換 | 67 | 1.7% | 数詞パーサ / コーパス |
| 全角半角・句読点差 | 40 | 1.0% | accept.tsv でフィルタ |
| 数詞→アラビア数字化 | 15 | 0.4% | 数詞パーサ修正 / コーパス |
即効性のある改善: accept.tsv の拡充
表記揺れ 367件 + 全角半角差 40件 = 約407件は、accept.tsv に追加するだけで Real BAD を 3,993 → 約3,586 に削減できる。
表記揺れの主なパターン
| パターン | 件数 | 例 |
|---|---|---|
| 無い → ない | 91 | 心当たりが無い → 心当たりがない |
| 気 → 木 の混同ではなく良/よ差 | 39 | 良いとも → いいとも |
| 分かる → わかる | 21 | 分かった → わかった |
| 良い → いい / よい | 18+10 | 良く冷えた → よく冷えた |
| 付く → つく | 14 | 区別が付かん → 区別がつかん |
| 行く → いく | 13 | 幕張行くんで → 幕張いくんで |
| 言う → いう | 12 | と言うか → というか |
| 鳴く → なく | 12 | 目覚ましが鳴った → なった |
| 見る → みる | 11 | 見ます → みます |
これらは日本語としてどちらも正しい表記であり、accept.tsv に追加して評価から除外すべき。
全角半角の差 (40件)
? vs ?、% vs % など。これらも accept.tsv でフィルタ可能。
主要課題: 同音異義語 (3,504件)
BAD の大半を占める。さらにサブカテゴリに分類する。
高頻度の1文字差 同音異義語ペア
| corpus → akaza | 件数 | 深刻度 | 対処案 |
|---|---|---|---|
| 気 → 木 | 36 | 高 | bigram「木がする」を抑制。「気がする」コーパス追加 |
| と → 途 | 24 | 高 | 「途」の unigram スコアが高すぎる。助詞「と」の接続を強化 |
| 再 → 賽 | 17 | 高 | 「賽」の unigram 抑制。「再コンパイル」等コーパス追加 |
| 話 → 和 | 15 | 中 | 「話」の短い読み「わ」が「和」に負ける |
| あった → 会った | 14 | 中 | 「あった」(存在)と「会った」(面会)の文脈区別 |
| 以上 → 異常 | 9 | 中 | 「以上よろしく」のbigram強化 |
| 結構 → 欠航 | 9 | 中 | 「欠航」のスコアが高すぎる(Wikipedia偏り) |
| そこ → 底 | 9 | 中 | 「底」が文頭・助詞位置に出現 |
| 大 → 第 | 8 | 中 | 「大至急」→「第至急」など。bigram 不足 |
| 資料 → 飼料 | 7 | 中 | Wikipedia の畜産記事による偏り |
| 円 → 縁 | 7 | 中 | 通貨の「円」が「縁」に負ける |
| 旧 → 急 | 7 | 中 | 「旧体制」→「急体制」 |
| 使用 → 私用 | 6 | 中 | 「しよう」の同音衝突 |
| 暑い → 厚い | 6 | 低 | 文脈依存の同音異義語 |
分節崩壊 (34件)
corpus と akaza の長さが3文字以上異なるケース。分節の切り方自体が壊れている。
| 入力 | 期待 | 実際 |
|---|---|---|
| じゅうらんしゃじけん | 銃乱射事件 | 自ゅうらんしゃじけん |
| がんこうしゅていのやから | 眼高手低の輩 | 眼光シュテイ野家から |
| 1にちさいちょう8じかん | 1日最長8時間 | 1日祭超8字管 |
分節崩壊は辞書への複合語登録で対処するのが効果的。
未変換パターン (117件)
漢字に変換されるべきところがひらがなのまま残る。
| 入力 | 期待 | 実際 |
|---|---|---|
| どんぐりのせいくらべ | 団栗の背比べ | どんぐりのせいくらべ |
| めったにいかないけど… | 滅多に行かないけど… | めったにいかないけど… |
| たくさんもらっても | 沢山貰っても | たくさんもらっても |
| でふぉるとのせっていで… | デフォルトの設定で… | デフォルトの設定でごちゃごちゃ… |
多くは口語的な表現で、ひらがな表記も自然なケースが多い。accept.tsv 候補でもある。
過変換パターン (21件)
ひらがな・カタカナで書くべきところが漢字化される。
| 入力 | 期待 | 実際 |
|---|---|---|
| バカにはバカなりの | バカにはバカなりの | 馬鹿には馬鹿なりの |
| ダイオウイカ | ダイオウイカ | 大王烏賊 |
改善の優先順位
優先度1: accept.tsv 拡充 (推定 -400件)
最も低コストで効果が大きい。表記揺れ・句読点差をフィルタすることで、Real BAD を約3,586件に削減。注力すべき真の問題が見えやすくなる。
対象:
- ひらがな⇔漢字の表記揺れ (無い/ない、分かる/わかる、良い/いい 等)
- ひらがな⇔カタカナの表記揺れ (バカ/馬鹿、マジ/まじ 等)
- 全角⇔半角 (?/?、%/%)
優先度2: 高頻度同音異義語のコーパス追加 (推定 -100〜200件)
patterns.txt の上位パターンに対して should.txt にコーパスを追加。
特に効果が見込めるもの:
- 気→木 (36件): 「気がする」「気にする」「気をつける」等の頻出フレーズ
- と→途 (24件): 助詞「と」の bigram 強化
- 再→賽 (17件): 「再起動」「再コンパイル」「再利用」等
- 以上→異常 (9件): 「以上よろしく」「以上のように」
- 結構→欠航 (9件): 「結構いい」「結構です」
優先度3: Wikipedia 偏りの是正 (推定 -50件)
Wikipedia に偏った語のスコアが日常語を上回るケース:
- 賽(賽の河原)が「再」に勝つ
- 欠航が「結構」に勝つ
- 飼料が「資料」に勝つ
- 数寄が「好き」に勝つ
- 咆哮が「方向」に勝つ
対処: should.txt に日常語のコーパスを追加して矯正。
優先度4: 辞書への複合語登録 (推定 -30件)
分節崩壊を防ぐため、SKK-JISYO.akaza に複合語を登録する案。
ただし、分節崩壊の例に挙がった「眼高手低」のようなケースは注意が必要。 「眼高手低」は SKK-JISYO.L には未収録だが、JMdict には収録されている。Wiktionary の四字熟語カテゴリには未収録。 日常で使われる頻度は低く、anthy コーパスにたまたま含まれている程度。 こういったエントリのために個別に辞書を足すのは anthy コーパスへの過学習。
四字熟語の体系的な補完ソースとして以下を調査した:
- EDRDG Yojijukugo: JMdict の「yoji」タグ付き約3,200件。CC BY-SA。「眼高手低」も収録
- Wiktionary 四字熟語カテゴリ: 約804件。CC BY-SA。「眼高手低」は未収録
結論: evaluate の BAD から個別に辞書を足すのは過学習。体系的に補完するなら JMdict の yoji エントリと SKK-JISYO.L の差分を取るアプローチが有効。ただしニッチな四字熟語を追加しても変換候補のノイズが増えるリスクがあるため、実際のユーザー頻度を考慮すべき
優先度5: 数詞パーサの改善 (推定 -80件)
数字含み文の誤変換 67件 + 数詞アラビア数字化 15件。 「せん→1000」「まん→10000」等の数詞パーサ誤爆は v2026.0216.0 で一部コーパスで対処済みだが、根本的にはパーサ側のスコアリング調整が必要。
まとめ
| 施策 | 推定削減 | コスト | 備考 |
|---|---|---|---|
| accept.tsv 拡充 | -400件 | 低 | スクリプトで半自動化可能 |
| 高頻度同音異義語コーパス | -100〜200件 | 中 | 退行チェック必須 |
| Wikipedia 偏り是正 | -50件 | 中 | 双方向同音異義語に注意 |
| 辞書複合語登録 | -30件 | 低 | 副作用少ない |
| 数詞パーサ改善 | -80件 | 高 | コード変更必要 |
全施策を実施した場合、Real BAD を現在の約3,993件から約3,200〜3,400件程度まで削減できる見込み。