TranslateGemma-12b: Revisão Humana Captura 71% de Erros

Uma auditoria de acompanhamento das traduções de legendas do TranslateGemma-12b revela que as métricas automatizadas subestimam significativamente os erros do mundo real. O benchmark original mostrou o modelo superando modelos gerais de ponta (Claude Sonnet, GPT-5.4, DeepSeek, Gemini Flash Lite) em 6 idiomas. Para verificar, a equipe adicionou revisão humana.

Configuração

21 segmentos de legendas em inglês de um vídeo tutorial
TranslateGemma-12b traduziu para 4 idiomas: ES, JA, TH, ZH-CN (coreano e chinês tradicional foram descartados)
84 traduções no total, pré-selecionadas por terem pontuações altas em métricas automáticas
Cada tradução foi enviada para revisão humana MQM

Resultados

De acordo com o próprio limite de alerta do painel (MX ≥ 5 OU CK < 0,70):

Sinalizado automaticamente: 1/84 (1,2%)
Sinalizado por humanos (qualquer): 60/84 (71%)
Sinalizado por humanos (Grande): 13/84 (15%)

Por idioma:

ES: 0/21 automático, 11/21 sinalizado por humanos, 2/21 Grande — principalmente inconsistências de tom (alternância formal/informal), o mais fácil dos quatro
JA: 0/21 automático, 17/21 sinalizado por humanos, 3/21 Grande — padrão "fluente mas significado errado"; 10 dos 15 erros de tradução no conjunto de dados. O alto COMETKiwi (média 0,86) mascarou erros. Mesmo modo de falha observado no Claude Sonnet 4.6 para JA.
TH: 0/21 automático, 17/21 sinalizado por humanos, 5/21 Grande — superprodução: 5 erros de Precisão/Adição (inserção de conteúdo não presente na origem), além de erros de pontuação devido a pontos finais no estilo inglês.
ZH-CN: 1/21 automático (erro de estilo), 15/21 sinalizado por humanos, 3/21 Grande — incluindo omissão de "loja" alterando o significado e tradução inconsistente de "ingresso" entre segmentos.

Dos 25 erros da classe Precisão (tradução incorreta, omissão, adição, não traduzido), todos estavam no quadrante cego a métricas. As métricas não capturaram nenhum erro de precisão.

Conclusão

Auditoria pequena, um modelo, um conjunto de conteúdos — números são indicativos. Mas o padrão é claro: métricas automatizadas sozinhas perdem a maioria dos problemas reais de tradução, especialmente erros de precisão. Para trabalho profissional com legendas, a revisão humana continua essencial.

📖 Leia a fonte completa: r/LocalLLaMA

TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas

Configuração

Resultados

Conclusão

👀 See Also

SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify

Título: Claude Code v2.1.129: Orientação para Persistência de Loop Autônomo e Classificador de Estado de Agente em Segundo Plano

TabFM: Modelo Fundacional Zero-Shot do Google para Classificação e Regressão de Dados Tabulares

Plano Claude Max 20x: Aumentos de Limite Não Aplicados Apesar dos Anúncios — Usuário Confirma com Matemática