Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

corpus-stats v2026.0216.0 比較レポート

概要

corpus-stats を v2026.0211.1 から v2026.0216.0 に更新した際の evaluate 結果の比較。

  • コミット: c4b009c2 (main)
  • 評価日: 2026-02-16

スコア比較

指標v2026.0211.1 (旧)v2026.0216.0 (新)差分
Good67076712+5
Top-5348351+3
Bad40104002-8
Recall93.1647%93.1246%-0.04%

Good が 5 件増え、Bad が 8 件減少。Recall は微減だが Good/Bad 比は改善。

差分の詳細

改善 68 件、退行 60 件(ネット +8 改善)。

改善の傾向: 数字+助数詞の変換精度向上

数字の後の助数詞・単位の変換が大幅に改善された。

旧 (v2026.0211.1)新 (v2026.0216.0)期待値
2会2回2回
3じ3時3時
1周間1週間1週間
2原画体育2件が体育2限が体育
2塔の犬2頭の犬(GOOD)2頭の犬
78才78歳78歳
2健之金井喫茶店2件しかない喫茶店2軒しかない喫茶店
22字杉に夕飯22時過ぎに夕飯22時過ぎに夕飯

壊滅的な誤変換(2健之金井言っ週刊ぐらい前)が解消されている点が特に良い。

退行の傾向1: 漢数詞のアラビア数字化

漢数詞で書くべきところがアラビア数字に変換されてしまう。

入力新の出力期待値
ここであったがひゃくねんめ100年目百年目
よいいちねんになりますように1年一年
さんにんしかいない3人三人
いっぱくしかしないようだ1泊一泊
もういっさつの1冊の一冊の
もういってん1点一点

退行の傾向2: 数詞パーサの誤爆

数字に関係のない単語が数値として誤認識される深刻な退行。

入力新の出力期待値
せんねん(専念)1000年専念
まんさい(満載)10000歳満載
ちょうてん(頂点)1000000000000点頂点
ちょうひょう(帳票)1000000000000票帳票
せんだい(仙台)1000代仙台
まんかい(満開)10000回満開
まんびょう(万病)10000秒万病
いっさい(一切)1歳一切
ちょうじかん(長時間)1000000000000時間長時間

せん→1000まん→10000ちょう→1000000000000 の数詞パーサが、同音の漢字(専、万、長 等)に対して誤爆している。

所見

  • 助数詞パーサの改善で数字+助数詞の変換は確実に良くなった
  • ただし数詞パーサの誤爆(専念→1000年、仙台→1000代 等)は深刻で、修正が必要
  • 漢数詞のアラビア数字化(百年目→100年目)は表記スタイルの問題だが、慣用表現では漢数詞が自然