TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas

Uma auditoria de acompanhamento das traduções de legendas do TranslateGemma-12b revela que as métricas automatizadas subestimam significativamente os erros do mundo real. O benchmark original mostrou o modelo superando modelos gerais de ponta (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) em 6 idiomas. Para verificar, a equipe adicionou revisão humana.
Configuração
- 21 segmentos de legendas em inglês de um vídeo tutorial
- TranslateGemma-12b traduziu para 4 idiomas: ES, JA, TH, ZH-CN (coreano e chinês tradicional foram descartados)
- 84 traduções no total, pré-selecionadas por terem pontuações altas em métricas automáticas
- Cada tradução foi enviada para revisão humana MQM
Resultados
De acordo com o próprio limite de alerta do painel (MX ≥ 5 OU CK < 0,70):
- Sinalizado automaticamente: 1/84 (1,2%)
- Sinalizado por humanos (qualquer): 60/84 (71%)
- Sinalizado por humanos (Grande): 13/84 (15%)
Por idioma:
- ES: 0/21 automático, 11/21 sinalizado por humanos, 2/21 Grande — principalmente inconsistências de tom (alternância formal/informal), o mais fácil dos quatro
- JA: 0/21 automático, 17/21 sinalizado por humanos, 3/21 Grande — padrão "fluente mas significado errado"; 10 dos 15 erros de tradução no conjunto de dados. O alto COMETKiwi (média 0,86) mascarou erros. Mesmo modo de falha observado no Claude Sonnet 4.6 para JA.
- TH: 0/21 automático, 17/21 sinalizado por humanos, 5/21 Grande — superprodução: 5 erros de Precisão/Adição (inserção de conteúdo não presente na origem), além de erros de pontuação devido a pontos finais no estilo inglês.
- ZH-CN: 1/21 automático (erro de estilo), 15/21 sinalizado por humanos, 3/21 Grande — incluindo omissão de "loja" alterando o significado e tradução inconsistente de "ingresso" entre segmentos.
Dos 25 erros da classe Precisão (tradução incorreta, omissão, adição, não traduzido), todos estavam no quadrante cego a métricas. As métricas não capturaram nenhum erro de precisão.
Conclusão
Auditoria pequena, um modelo, um conjunto de conteúdos — números são indicativos. Mas o padrão é claro: métricas automatizadas sozinhas perdem a maioria dos problemas reais de tradução, especialmente erros de precisão. Para trabalho profissional com legendas, a revisão humana continua essencial.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

ONGs Ganham Acesso ao Claude Opus 4.6 nos Planos Team e Enterprise
Organizações sem fins lucrativos que utilizam os planos Team e Enterprise agora podem acessar o Claude Opus 4.6, o mais recente modelo de IA da Anthropic, sem custo adicional.

Economia do Vídeo Sora AI: Custo de US$ 20 para o Usuário Representa US$ 65 em Computação para a OpenAI
O aplicativo de geração de vídeo por IA Sora da OpenAI custa cerca de US$ 65 em computação por usuário de US$ 20/mês, com custos de inferência no pico estimados em US$ 15 milhões diários versus US$ 2,1 milhões de receita total ao longo da vida útil.

Geração de Código Determinística vs Probabilística: Por Que a Conversão para Rust com Vibe-Coding do Bun Levanta Bandeiras Vermelhas
Noah Hall argumenta que mudanças de 1M de linhas codadas com "vibe coding" (como a conversão de Zig para Rust do Bun) são perigosas. Contrasta transpiladores determinísticos com saída probabilística de LLMs. Testes não são suficientes.

Desenvolvedor se declara culpado em esquema de fraude de streaming de música com IA de US$ 8 milhões
Michael Smith, de 54 anos, admitiu usar milhares de contas de bots e músicas geradas por IA para desviar US$ 8 milhões em royalties de plataformas de streaming, incluindo Spotify, Apple Music e YouTube Music, entre 2017 e 2024.