TranslateGemma-12b : L'examen humain détecte 71 % d'erreurs manquées par les mesures automatisées

Un audit de suivi des traductions de sous-titres TranslateGemma-12b révèle que les métriques automatisées sous-estiment considérablement les erreurs réelles. Le benchmark initial montrait que le modèle surpassait les modèles généraux de pointe (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) dans 6 langues. Pour vérifier, l'équipe a ajouté une révision humaine.
Configuration
- 21 segments de sous-titres anglais provenant d'une vidéo tutorielle
- Traduction par TranslateGemma-12b dans 4 langues : ES, JA, TH, ZH-CN (coréen et chinois traditionnel abandonnés)
- 84 traductions au total, présélectionnées comme ayant obtenu de bons résultats aux métriques automatisées
- Chaque traduction soumise à un examen MQM humain
Résultats
Selon le seuil d'alerte propre au tableau de bord (MX ≥ 5 OR CK < 0,70) :
- Signalé automatiquement : 1/84 (1,2 %)
- Signalé par l'humain (tout type) : 60/84 (71 %)
- Signalé par l'humain (Majeur) : 13/84 (15 %)
Par langue :
- ES : 0/21 auto, 11/21 signalé par l'humain, 2/21 Majeur — principalement des incohérences de ton (alternance formel/informel), la plus facile des quatre
- JA : 0/21 auto, 17/21 signalé par l'humain, 3/21 Majeur — schéma « fluide mais sens erroné » ; 10 des 15 erreurs de traduction totales dans l'ensemble de données. Un COMETKiwi élevé (moyenne 0,86) a masqué les erreurs. Même mode de défaillance observé avec Claude Sonnet 4.6 sur JA.
- TH : 0/21 auto, 17/21 signalé par l'humain, 5/21 Majeur — surproduction : 5 erreurs de précision/ajout (insertion de contenu absent de la source), plus des erreurs de ponctuation dues aux points de style anglais.
- ZH-CN : 1/21 auto (erreur de style), 15/21 signalé par l'humain, 3/21 Majeur — y compris l'omission de « magasin » modifiant le sens, et une traduction incohérente de « ticket » d'un segment à l'autre.
Sur les 25 erreurs de classe Précision (contresens, omission, ajout, non-traduction), toutes se trouvaient dans le quadrant aveugle aux métriques. Les métriques n'ont détecté aucune erreur de précision.
Conclusion
Petit audit, un modèle, un ensemble de contenu — les chiffres sont indicatifs. Mais le schéma est clair : les métriques automatisées seules manquent la majorité des vrais problèmes de traduction, en particulier les erreurs de précision. Pour un travail de sous-titrage en production, la révision humaine reste essentielle.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Le double standard dans la création assistée par l'IA : programmation vs rédaction
Une discussion sur Reddit met en lumière la réception contrastée entre la programmation assistée par IA (vibe coding) et l'écriture assistée par IA, notant des flux de travail identiques mais des perceptions culturelles différentes.

Nouveaux crédits d'abonnement Claude d'Anthropic : SDK Agent et claude -p obtiennent un pool plafonné séparé à partir du 15 juin
À partir du 15 juin, les abonnés Claude bénéficient d'un crédit mensuel distinct pour l'utilisation du SDK Agent et de claude -p : 200 $/mois pour Max 20x, 100 $ pour Max 5x, 20 $ pour Pro. L'utilisation s'arrête lorsque le crédit est épuisé, sauf si la facturation supplémentaire est activée. L'utilisation interactive de Claude Code et du chat reste sur le pool d'abonnement.

Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.
Un benchmark autonome exécuté par Claude Code (Opus 4.6) a initialement déclaré que MiniMax 'ne peut pas exécuter la tâche' en raison d'un bug de configuration du sandbox, puis a corrigé le verdict après avoir examiné les journaux du démon. Cet incident met en lumière comment les juges IA peuvent attribuer à tort, avec confiance, des problèmes d'infrastructure à des faiblesses du modèle.

Naviguer les essentiels : Les nouveaux utilisateurs recherchent des conseils sur OpenClaw
Les débutants d'OpenClaw sollicitent de l'aide sur Reddit alors qu'ils explorent les subtilités des agents d'IA pour le codage. La communauté technologique intervient avec des conseils et des ressources.