Autoajuste Supervisionado Próprio em Erros Próprios Impulsiona Modelos Pequenos a 80% no HumanEval

Um desenvolvedor no r/LocalLLaMA implementou um loop de treinamento auto-supervisionado onde um pequeno modelo de linguagem gera seus próprios problemas de codificação, tenta soluções e refina nos pares em que o interpretador confirma a correção. A principal ideia do artigo DeepSeek-R1 — de que modelos podem melhorar por meio de recompensas verificáveis — foi aplicada sem dados rotulados por humanos.
Método
O modelo base (começando com Qwen 2.5 7B) foi instruído a inventar um problema de codificação e alguns pequenos testes. Em seguida, ele resolveu o mesmo problema várias vezes. O interpretador Python atuou como único juiz: pares de (tentativa falha, tentativa bem-sucedida) foram salvos. O refinamento foi realizado nesses pares auto-extraídos. Nenhum código escrito por humanos foi usado no treinamento.
Resultados
- Qwen 2.5 7B base: 25 → 112 no HumanEval (+87 problemas) após corrigir um bug no avaliador que truncava as saídas das funções.
- Qwen 2.5 14B: Extraiu 100 pares, treinou em 95 minutos em uma H100 ($3,50 em créditos). Pontuação dentro de 4 pontos da versão RLHF da mesma empresa.
- Llama 3.2 3B: 32 pares → 39 → 43 no HumanEval. Confirma a transferência entre arquiteturas.
- Qwen 2.5 Coder 7B: Já especializado em código, mas ainda melhorou: HumanEval 83 → 87, MBPP 122 → 124.
- Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.
Experimento de Controle
Para verificar se o sinal não vinha de treinamento genérico, o autor construiu pares falsos com código lixo aleatório que não passava em nenhum teste. O treinamento nesses pares não produziu melhora (25/164, igual ao base). A melhoria é especificamente proveniente do aprendizado com erros e correções auto-gerados.
Detalhes Práticos
A tentativa inicial falhou porque o avaliador parava cedo, cortando as saídas do modelo pela metade. Corrigir o avaliador foi crucial. Toda a configuração rodou em um MacBook de 24 GB e uma conta RunPod. O código e os scripts de treinamento foram presumivelmente compartilhados no post do Reddit.
Para Quem É
Desenvolvedores e pesquisadores que trabalham com pequenos modelos de linguagem e desejam iniciar o raciocínio de código sem anotações humanas.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

As ferramentas de IA precisam de integração prática para pequenas empresas, não apenas de hype.
A comunidade de IA foca em debates técnicos, enquanto pequenos empresários precisam que ferramentas existentes sejam integradas em seus fluxos de trabalho para lidar com tarefas repetitivas como agendamento, acompanhamentos e contabilidade.

Tencent Realiza Evento Gratuito de Instalação do OpenClaw em Shenzhen Diante da Alta Demanda
A Tencent organizou 20 funcionários do lado de fora de seu prédio de escritórios em Shenzhen para instalar o OpenClaw gratuitamente em 6 de março, em resposta a relatos de pessoas pagando mais de US$ 70 por serviços de instalação em domicílio. O evento utilizou a plataforma Lighthouse da Tencent Cloud, com a maioria dos participantes sendo profissionais de colarinho branco enfrentando pressão da competição no local de trabalho e da adoção de IA.

Postagem no Reddit critica fluxos de trabalho de Agentes CEO Virtuais, defende abordagem baseada em habilidades
Uma publicação no Reddit no r/openclaw critica a criação de agentes de IA com títulos de cargo como 'desenvolvedor backend' ou 'growth hacker' como uma sobrecarga desnecessária, propondo, em vez disso, empacotar habilidades como competências reutilizáveis que podem ser chamadas quando necessário.

Arquitetura de IA Híbrida: Componentes de Código Aberto com Modelos de Raciocínio Proprietários
Uma arquitetura híbrida prática de IA está surgindo, onde 89% das organizações usam componentes de código aberto para reduzir custos em mais de 50%, enquanto modelos proprietários lidam com tarefas complexas de raciocínio. Os frameworks de código aberto oferecem transparência e capacidades de ajuste fino sem negociações de licenciamento.