TranslateGemma-12b : 71% d'erreurs détectées par l'examen humain

Un audit de suivi des traductions de sous-titres TranslateGemma-12b révèle que les métriques automatisées sous-estiment considérablement les erreurs réelles. Le benchmark initial montrait que le modèle surpassait les modèles généraux de pointe (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) dans 6 langues. Pour vérifier, l'équipe a ajouté une révision humaine.

Configuration

21 segments de sous-titres anglais provenant d'une vidéo tutorielle
Traduction par TranslateGemma-12b dans 4 langues : ES, JA, TH, ZH-CN (coréen et chinois traditionnel abandonnés)
84 traductions au total, présélectionnées comme ayant obtenu de bons résultats aux métriques automatisées
Chaque traduction soumise à un examen MQM humain

Résultats

Selon le seuil d'alerte propre au tableau de bord (MX ≥ 5 OR CK < 0,70) :

Signalé automatiquement : 1/84 (1,2 %)
Signalé par l'humain (tout type) : 60/84 (71 %)
Signalé par l'humain (Majeur) : 13/84 (15 %)

Par langue :

ES : 0/21 auto, 11/21 signalé par l'humain, 2/21 Majeur — principalement des incohérences de ton (alternance formel/informel), la plus facile des quatre
JA : 0/21 auto, 17/21 signalé par l'humain, 3/21 Majeur — schéma « fluide mais sens erroné » ; 10 des 15 erreurs de traduction totales dans l'ensemble de données. Un COMETKiwi élevé (moyenne 0,86) a masqué les erreurs. Même mode de défaillance observé avec Claude Sonnet 4.6 sur JA.
TH : 0/21 auto, 17/21 signalé par l'humain, 5/21 Majeur — surproduction : 5 erreurs de précision/ajout (insertion de contenu absent de la source), plus des erreurs de ponctuation dues aux points de style anglais.
ZH-CN : 1/21 auto (erreur de style), 15/21 signalé par l'humain, 3/21 Majeur — y compris l'omission de « magasin » modifiant le sens, et une traduction incohérente de « ticket » d'un segment à l'autre.

Sur les 25 erreurs de classe Précision (contresens, omission, ajout, non-traduction), toutes se trouvaient dans le quadrant aveugle aux métriques. Les métriques n'ont détecté aucune erreur de précision.

Conclusion

Petit audit, un modèle, un ensemble de contenu — les chiffres sont indicatifs. Mais le schéma est clair : les métriques automatisées seules manquent la majorité des vrais problèmes de traduction, en particulier les erreurs de précision. Pour un travail de sous-titrage en production, la révision humaine reste essentielle.

📖 Read the full source: r/LocalLLaMA

TranslateGemma-12b : L'examen humain détecte 71 % d'erreurs manquées par les mesures automatisées

Configuration

Résultats

Conclusion

👀 See Also

Anthropic lance le Claude Partner Network avec un investissement de 100 millions de dollars

Aperçu gratuit des agents Workspace de ChatGPT se termine aujourd'hui — Comparaison avec OpenClaw et Hermes

Les 100 000 pourquoi de l'IA : comment les sorties quasi-déterministes des LLM créent des déchets révélateurs

Claude Opus 4.7 sorti avec raisonnement hybride et fenêtre contextuelle de 1 million de tokens