TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas

✍️ OpenClawRadar📅 Publicado: 12 de mayo de 2026🔗 Source
TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas
Ad

Una auditoría de seguimiento de las traducciones de subtítulos de TranslateGemma-12b revela que las métricas automatizadas subestiman significativamente los errores del mundo real. La evaluación comparativa original mostró que el modelo superaba a los modelos generales de vanguardia (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) en 6 idiomas. Para verificarlo, el equipo agregó revisión humana.

Configuración

  • 21 segmentos de subtítulos en inglés de un video tutorial
  • TranslateGemma-12b tradujo a 4 idiomas: ES, JA, TH, ZH-CN (se eliminaron coreano y chino tradicional)
  • 84 traducciones en total, preseleccionadas por obtener buenos resultados en métricas automatizadas
  • Cada traducción se envió a revisión humana MQM
Ad

Resultados

Según el propio umbral de alerta del panel (MX ≥ 5 O CK < 0,70):

  • Marcado automático: 1/84 (1,2%)
  • Marcado humano (cualquiera): 60/84 (71%)
  • Marcado humano (grave): 13/84 (15%)

Por idioma:

  • ES: 0/21 automático, 11/21 marcado humano, 2/21 grave — en su mayoría inconsistencias de tono (cambios formal/informal), el más fácil de los cuatro
  • JA: 0/21 automático, 17/21 marcado humano, 3/21 grave — patrón de “fluido pero significado incorrecto”; 10 de los 15 errores de traducción en el conjunto de datos. El alto COMETKiwi (media 0,86) ocultó los errores. El mismo modo de fallo observado en Claude Sonnet 4.6 para JA.
  • TH: 0/21 automático, 17/21 marcado humano, 5/21 grave — sobreproducción: 5 errores de Precisión/Adición (insertar contenido que no está en el original), más errores de puntuación por puntos al estilo inglés.
  • ZH-CN: 1/21 automático (error de estilo), 15/21 marcado humano, 3/21 grave — incluyendo omisión de “tienda” que cambia el significado, y traducción inconsistente de “billete” entre segmentos.

De los 25 errores de clase Precisión (mala traducción, omisión, adición, no traducido), todos estaban en el cuadrante ciego a las métricas. Las métricas no detectaron ningún error de precisión.

Conclusión

Auditoría pequeña, un modelo, un conjunto de contenido: las cifras son orientativas. Pero el patrón es claro: las métricas automatizadas por sí solas pasan por alto la mayoría de los problemas reales de traducción, especialmente los errores de precisión. Para trabajar con subtítulos en producción, la revisión humana sigue siendo esencial.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Explorando n8n como una alternativa a OpenClaw Skills para la automatización.
Noticias

Explorando n8n como una alternativa a OpenClaw Skills para la automatización.

La comunidad de OpenClaw en Reddit debate los pros y los contras de usar n8n en lugar de OpenClaw Skills para tareas de automatización. Los puntos clave de discusión incluyen la facilidad de uso, la flexibilidad y ejemplos de aplicación en el mundo real.

OpenClawRadar
Usuario de Reddit informa 18.8 tok/s en inferencia por CPU con Qwen 3 30B Q4 en Zen 4.
Noticias

Usuario de Reddit informa 18.8 tok/s en inferencia por CPU con Qwen 3 30B Q4 en Zen 4.

Un usuario en r/LocalLLaMA probó Qwen 3 30B Q4 en CPU y logró 18.8 tokens por segundo con un procesador Zen 4 y memoria DDR5, superando significativamente las expectativas de 3-5 tok/s.

OpenClawRadar
Análisis de 100 millones de tokens en Claude Code revela un uso del 99.4% en entradas.
Noticias

Análisis de 100 millones de tokens en Claude Code revela un uso del 99.4% en entradas.

El análisis de 1,289 solicitudes en sesiones de codificación extendidas muestra que Claude Code utilizó 100.3M tokens de entrada (99.4%) frente a solo 616K tokens de salida (0.6%), con 84.2M tokens almacenados en caché debido al reenvío repetido del contexto.

OpenClawRadar
llama.cpp con cuantización Q8_0 obtiene una aceleración de 3.1x en GPUs Intel Arc con la corrección de reordenamiento SYCL.
Noticias

llama.cpp con cuantización Q8_0 obtiene una aceleración de 3.1x en GPUs Intel Arc con la corrección de reordenamiento SYCL.

Una corrección para el backend SYCL de llama.cpp lleva la cuantización Q8_0 en GPUs Intel Arc del 21% al 66% del ancho de banda de memoria teórico, logrando 15,24 tokens/segundo frente a 4,88 tokens/segundo anteriormente en una Arc Pro B70 con Qwen3.5-27B.

OpenClawRadar