Treinamento Próprio do Qwen 2.5 7B Atinge 80% no HumanEval

Um desenvolvedor no r/LocalLLaMA implementou um loop de treinamento auto-supervisionado onde um pequeno modelo de linguagem gera seus próprios problemas de codificação, tenta soluções e refina nos pares em que o interpretador confirma a correção. A principal ideia do artigo DeepSeek-R1 — de que modelos podem melhorar por meio de recompensas verificáveis — foi aplicada sem dados rotulados por humanos.

Método

O modelo base (começando com Qwen 2.5 7B) foi instruído a inventar um problema de codificação e alguns pequenos testes. Em seguida, ele resolveu o mesmo problema várias vezes. O interpretador Python atuou como único juiz: pares de (tentativa falha, tentativa bem-sucedida) foram salvos. O refinamento foi realizado nesses pares auto-extraídos. Nenhum código escrito por humanos foi usado no treinamento.

Resultados

Qwen 2.5 7B base: 25 → 112 no HumanEval (+87 problemas) após corrigir um bug no avaliador que truncava as saídas das funções.
Qwen 2.5 14B: Extraiu 100 pares, treinou em 95 minutos em uma H100 ($3,50 em créditos). Pontuação dentro de 4 pontos da versão RLHF da mesma empresa.
Llama 3.2 3B: 32 pares → 39 → 43 no HumanEval. Confirma a transferência entre arquiteturas.
Qwen 2.5 Coder 7B: Já especializado em código, mas ainda melhorou: HumanEval 83 → 87, MBPP 122 → 124.
Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.

Experimento de Controle

Para verificar se o sinal não vinha de treinamento genérico, o autor construiu pares falsos com código lixo aleatório que não passava em nenhum teste. O treinamento nesses pares não produziu melhora (25/164, igual ao base). A melhoria é especificamente proveniente do aprendizado com erros e correções auto-gerados.

Detalhes Práticos

A tentativa inicial falhou porque o avaliador parava cedo, cortando as saídas do modelo pela metade. Corrigir o avaliador foi crucial. Toda a configuração rodou em um MacBook de 24 GB e uma conta RunPod. O código e os scripts de treinamento foram presumivelmente compartilhados no post do Reddit.

Para Quem É

Desenvolvedores e pesquisadores que trabalham com pequenos modelos de linguagem e desejam iniciar o raciocínio de código sem anotações humanas.

📖 Leia a fonte completa: r/LocalLLaMA

Autoajuste Supervisionado Próprio em Erros Próprios Impulsiona Modelos Pequenos a 80% no HumanEval

Método

Resultados

Experimento de Controle

Detalhes Práticos

Para Quem É

👀 See Also

Eficiência de Tokens do Opus 4.7: Prompts em Alemão Consomem Até 2x Mais Tokens que em Inglês

Claude Code v2.1.195: Correção do Hook Matcher, Variável de Ambiente para Desabilitar Mouse, Correções de Ditado por Voz

Filme de Cannes custou US$ 500 mil para ser feito, US$ 400 mil foram custos de computação de IA

Os Termos do Contrato da OpenAI com o Pentágono Permitem 'Qualquer Uso Legal', Incluindo Potencial Vigilância