TranslateGemma-12b: 自動指標が見逃すエラー71%を人間が発見

TranslateGemma-12b字幕翻訳のフォローアップ監査により、自動評価指標が実際のエラーを大幅に過小評価していることが明らかになりました。元のベンチマークでは、このモデルが6言語において最先端の汎用モデル（Claude Sonnet、GPT-5.4、DeepSeek、Gemini Flash Lite）を上回っていました。検証のため、チームは人間によるレビューを追加しました。

設定

チュートリアル動画1本から英語字幕セグメント21件
TranslateGemma-12bが4言語（スペイン語、日本語、タイ語、中国語（簡体字））に翻訳（韓国語と中国語（繁体字）は除外）
全84翻訳、自動評価指標で高得点のものを事前選択
すべての翻訳を人間によるMQMレビューに提出

結果

ダッシュボード独自の警告基準（MX ≥ 5 OR CK < 0.70）のもと：

自動フラグ：1/84（1.2%）
人間フラグ（何らかのエラー）：60/84（71%）
人間フラグ（Major）：13/84（15%）

言語別：

スペイン語：自動0/21、人間フラグ11/21、Major 2/21 — 主にトーンの不整合（敬体/常体の切り替え）で、4言語中最も易しい
日本語：自動0/21、人間フラグ17/21、Major 3/21 — 「流暢だが意味が間違っている」パターンが特徴。データセット内の誤訳15件中10件が該当。高いCOMETKiwi（平均0.86）がエラーを隠蔽。Claude Sonnet 4.6でも日本語で同じ故障モードが見られた。
タイ語：自動0/21、人間フラグ17/21、Major 5/21 — 過剰生成：正確性/追加エラーが5件（原文にない内容の挿入）。さらに英語式ピリオドによる句読点エラー。
中国語（簡体字）：自動1/21（文体エラー）、人間フラグ15/21、Major 3/21 — 「store」の省略により意味が変わるケースや、セグメント間で「ticket」の訳が一貫しないケースを含む。

正確性クラスのエラー（誤訳、省略、追加、未翻訳）25件のうち、すべてが指標では検出できない領域にありました。指標は正確性エラーを1件も捕捉しませんでした。