TranslateGemma-12b: 71% de errores que métricas automatizadas pasan por alto

Una auditoría de seguimiento de las traducciones de subtítulos de TranslateGemma-12b revela que las métricas automatizadas subestiman significativamente los errores del mundo real. La evaluación comparativa original mostró que el modelo superaba a los modelos generales de vanguardia (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) en 6 idiomas. Para verificarlo, el equipo agregó revisión humana.

Configuración

21 segmentos de subtítulos en inglés de un video tutorial
TranslateGemma-12b tradujo a 4 idiomas: ES, JA, TH, ZH-CN (se eliminaron coreano y chino tradicional)
84 traducciones en total, preseleccionadas por obtener buenos resultados en métricas automatizadas
Cada traducción se envió a revisión humana MQM

Resultados

Según el propio umbral de alerta del panel (MX ≥ 5 O CK < 0,70):

Marcado automático: 1/84 (1,2%)
Marcado humano (cualquiera): 60/84 (71%)
Marcado humano (grave): 13/84 (15%)

Por idioma:

ES: 0/21 automático, 11/21 marcado humano, 2/21 grave — en su mayoría inconsistencias de tono (cambios formal/informal), el más fácil de los cuatro
JA: 0/21 automático, 17/21 marcado humano, 3/21 grave — patrón de “fluido pero significado incorrecto”; 10 de los 15 errores de traducción en el conjunto de datos. El alto COMETKiwi (media 0,86) ocultó los errores. El mismo modo de fallo observado en Claude Sonnet 4.6 para JA.
TH: 0/21 automático, 17/21 marcado humano, 5/21 grave — sobreproducción: 5 errores de Precisión/Adición (insertar contenido que no está en el original), más errores de puntuación por puntos al estilo inglés.
ZH-CN: 1/21 automático (error de estilo), 15/21 marcado humano, 3/21 grave — incluyendo omisión de “tienda” que cambia el significado, y traducción inconsistente de “billete” entre segmentos.

De los 25 errores de clase Precisión (mala traducción, omisión, adición, no traducido), todos estaban en el cuadrante ciego a las métricas. Las métricas no detectaron ningún error de precisión.

Conclusión

Auditoría pequeña, un modelo, un conjunto de contenido: las cifras son orientativas. Pero el patrón es claro: las métricas automatizadas por sí solas pasan por alto la mayoría de los problemas reales de traducción, especialmente los errores de precisión. Para trabajar con subtítulos en producción, la revisión humana sigue siendo esencial.

📖 Leer la fuente completa: r/LocalLLaMA

TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas

Configuración

Resultados

Conclusión

👀 Ver también

Claude AI abre PR fusionado para error de magic-link mientras el desarrollador duerme

Anthropic añade función de importación de memoria para cambiar de ChatGPT/Gemini a Claude

Ford reincorpora a más de 300 ingenieros veteranos tras fallar los controles de calidad de IA

La discusión en Reddit destaca los desafíos de depuración con código generado por IA.