71% 오류 발견: TranslateGemma-12b vs 자동 평가 비교

TranslateGemma-12b 자막 번역에 대한 후속 감사 결과, 자동 메트릭이 실제 오류를 상당히 과소평가하는 것으로 나타났습니다. 원래 벤치마크에서는 이 모델이 6개 언어에서 최고 수준의 일반 모델(Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite)을 능가하는 것으로 나타났습니다. 이를 확인하기 위해 팀은 인간 검토를 추가했습니다.

설정

하나의 튜토리얼 비디오에서 추출한 21개의 영어 자막 세그먼트
TranslateGemma-12b가 ES, JA, TH, ZH-CN의 4개 언어로 번역(한국어와 중국어 번체는 제외)
총 84개 번역으로, 자동 메트릭에서 높은 점수를 받은 미리 선택
모든 번역이 인간 MQM 검토에 제출됨

결과

대시보드 자체의 경고 임계값(MX ≥ 5 OR CK < 0.70) 기준:

자동 플래그: 1/84 (1.2%)
인간 플래그(모든 오류): 60/84 (71%)
인간 플래그(주요 오류): 13/84 (15%)

언어별:

ES: 자동 0/21, 인간 플래그 11/21, 주요 오류 2/21 — 주로 어조 불일치(격식/비격식 전환), 네 언어 중 가장 쉬움
JA: 자동 0/21, 인간 플래그 17/21, 주요 오류 3/21 — "유창하지만 의미가 틀린" 패턴; 데이터셋의 전체 오역 15건 중 10건. 높은 COMETKiwi(평균 0.86)가 오류를 가림. Claude Sonnet 4.6의 JA에서도 동일한 실패 모드.
TH: 자동 0/21, 인간 플래그 17/21, 주요 오류 5/21 — 과잉 생성: 정확성/추가 오류 5건(원문에 없는 내용 삽입), 영어식 마침표로 인한 구두점 오류.
ZH-CN: 자동 1/21(스타일 오류), 인간 플래그 15/21, 주요 오류 3/21 — "store" 누락으로 의미 변경, 세그먼트 간 "ticket" 번역 불일치 포함.

25개의 정확성 오류(오역, 누락, 추가, 미번역) 중 모두 메트릭이 감지하지 못한 사분면에 있었습니다. 메트릭은 정확성 오류를 하나도 포착하지 못했습니다.