TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source
TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas
Ad

Uma auditoria de acompanhamento das traduções de legendas do TranslateGemma-12b revela que as métricas automatizadas subestimam significativamente os erros do mundo real. O benchmark original mostrou o modelo superando modelos gerais de ponta (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) em 6 idiomas. Para verificar, a equipe adicionou revisão humana.

Configuração

  • 21 segmentos de legendas em inglês de um vídeo tutorial
  • TranslateGemma-12b traduziu para 4 idiomas: ES, JA, TH, ZH-CN (coreano e chinês tradicional foram descartados)
  • 84 traduções no total, pré-selecionadas por terem pontuações altas em métricas automáticas
  • Cada tradução foi enviada para revisão humana MQM
Ad

Resultados

De acordo com o próprio limite de alerta do painel (MX ≥ 5 OU CK < 0,70):

  • Sinalizado automaticamente: 1/84 (1,2%)
  • Sinalizado por humanos (qualquer): 60/84 (71%)
  • Sinalizado por humanos (Grande): 13/84 (15%)

Por idioma:

  • ES: 0/21 automático, 11/21 sinalizado por humanos, 2/21 Grande — principalmente inconsistências de tom (alternância formal/informal), o mais fácil dos quatro
  • JA: 0/21 automático, 17/21 sinalizado por humanos, 3/21 Grande — padrão "fluente mas significado errado"; 10 dos 15 erros de tradução no conjunto de dados. O alto COMETKiwi (média 0,86) mascarou erros. Mesmo modo de falha observado no Claude Sonnet 4.6 para JA.
  • TH: 0/21 automático, 17/21 sinalizado por humanos, 5/21 Grande — superprodução: 5 erros de Precisão/Adição (inserção de conteúdo não presente na origem), além de erros de pontuação devido a pontos finais no estilo inglês.
  • ZH-CN: 1/21 automático (erro de estilo), 15/21 sinalizado por humanos, 3/21 Grande — incluindo omissão de "loja" alterando o significado e tradução inconsistente de "ingresso" entre segmentos.

Dos 25 erros da classe Precisão (tradução incorreta, omissão, adição, não traduzido), todos estavam no quadrante cego a métricas. As métricas não capturaram nenhum erro de precisão.

Conclusão

Auditoria pequena, um modelo, um conjunto de conteúdos — números são indicativos. Mas o padrão é claro: métricas automatizadas sozinhas perdem a maioria dos problemas reais de tradução, especialmente erros de precisão. Para trabalho profissional com legendas, a revisão humana continua essencial.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also