数値+助数詞変換の再設計

#![allow(unused)]
fn main() {
pub struct NumericValue {
    pub value: i64,
    pub consumed_len: usize,  // 入力で消費した byte 長
    pub source: NumericSource, // ASCII / Fullwidth / Kana
}

pub enum NumericSource {
    AsciiDigits,
    FullwidthDigits,
    KanaNumeral,
}

pub struct CounterEntry {
    pub canonical_yomi: &'static str,   // 例: "ひき"
    pub yomi_aliases: &'static [&'static str], // 例: ["ひき", "びき", "ぴき"]
    pub surfaces: &'static [&'static str], // 例: ["匹"]
}
}

候補生成規則

入力 N + counter_yomi が成立した場合:

N を i64 に正規化
counter_yomi を CounterLexicon で CounterEntry に解決
各 surface_counter に対し、以下 3 系統の数字表記を生成

半角: N_ascii + surface_counter
全角: N_fullwidth + surface_counter
漢数字: int2kanji(N) + surface_counter

例:

0ひき / ぜろひき → 0匹, ０匹, 零匹
ひゃっぴき（=100+ぴき）→ 100匹, １００匹, 百匹
516しゅうかん → 516週間, ５１６週間, 五百十六週間

スコアリング方針

候補キーは既存ルールに沿って <NUM>助数詞/<NUM>助数詞読み に正規化して LM lookup する。

516週間/516しゅうかん
５１６週間/516しゅうかん
五百十六週間/516しゅうかん

上記は同一キー "<NUM>週間/<NUM>しゅうかん" で評価できるようにする。これにより、コーパスに 2週間 しかなくても 516週間 のスコアを共有できる。

ユーザー学習の汎化

ユーザーが変換結果を確定した際の学習データも、同じ <NUM> 正規化を適用する。これにより、ある数字パターンでの学習が他の数字パターンにも汎化される。

ユーザーが 3週間 を確定 → <NUM>週間/<NUM>しゅうかん として記録
以降、516週間, ２週間, 百週間 なども同じキーで lookup → スコアが上がる
unigram / bigram / skip-bigram の全ユーザー統計で同じ正規化を適用

連濁・促音の alias も正規化される:

3びき を確定 → <NUM>匹/<NUM>ひき として記録（びき → canonical ひき）
以降、5ひき, 100ぴき なども同じキーでスコア共有

実装ポイント

Segmenter

数値検出を ASCII 専用正規表現から拡張し、全角数字とかな数詞を抽出可能にする
数値+助数詞の複合セグメントを優先的に候補化する

GraphBuilder

既存の数字+かな複合候補ロジックを CounterCandidateGenerator に置換
数字表記 3 系統を同時に追加
<NUM> フォールバックは継続し、裸数字除外も継続

辞書/設定

初期はコード内静的テーブルで開始し、将来的に default-model 側の辞書ファイルへ外出し可能な形にする

段階導入計画

Phase 1: インフラ追加

NumericParser（ASCII/全角）
CounterLexicon（最小セット: 匹, 人, 週間など）
CounterCandidateGenerator（3表記生成）

Phase 2: かな数詞対応

ぜろ, れい, ひゃく, ひゃっ, せん などを実装
ひゃっぴき のような促音ケースを通す

Phase 3: 評価と拡張

助数詞テーブルの拡充
退行監視を通して alias を追加

テスト計画

Unit Tests

NumericParser:
- 0, ０, 516, ５１６, ぜろ, ひゃっ
CounterLexicon:
- ひき/びき/ぴき -> 匹
- しゅうかん -> 週間
CandidateGenerator:
- 3しゅうかん → 3週間, ３週間, 三週間
- 516しゅうかん → 516週間, ５１６週間, 五百十六週間

Integration Tests

0ひき, ぜろひき, ひゃっぴき, 3しゅうかん, 516しゅうかん の変換結果確認
既存退行ケース（助詞「に」「さん」「ご」）が悪化しないこと

Evaluate

default-model の評価結果で Good/Bad 差分を確認
数字表記差分は必要に応じて accept.tsv で管理

リスクと対策

かな数詞解析の誤爆

対策: 数値として解釈する条件を「助数詞が後続する場合」に限定する
追加対策（実装済み）:
- 1文字かな数詞（に, し, ご, く）は曖昧性が高いため除外（にほん→2本 防止）
- 1文字助数詞（じ, ど, こ, わ）はかな数詞との組み合わせでは除外（いちじ→1時 防止）
- かな数詞パスでは助数詞の完全一致のみマッチ（じょう が じ にマッチする誤爆を防止）
- かな数詞検出時も trie 探索を並行実行し、Viterbi に両方の解釈を提供

助数詞同音語（週間/週刊など）の誤選択

対策: CounterLexicon で優先候補を制御し、LM は補助に使う

候補数増加による速度低下

対策: 数字表記は原則 3 種固定、助数詞未解決時は既存経路にフォールバック

受け入れ条件

指定例（0ひき, ぜろひき, ひゃっぴき, 3しゅうかん, 516しゅうかん）で期待候補が出る
裸数字正規化禁止ルールを破らない
既存評価で重大退行（助詞の数字化）が発生しない

Keyboard shortcuts

Akaza ドキュメント