Ajuste fino do Qwen2.5-7B para 96% do Claude Haiku com US$3 e zero rotuladores humanos

Um desenvolvedor ajustou o Qwen2.5-7B para alcançar 96% do desempenho composto do Claude Haiku em uma tarefa de raciocínio de decisão específica do domínio — gastando apenas ~$3 em chamadas de API e usando zero anotadores humanos. O método, chamado DV-DPO (Otimização Direta de Preferência Validada por Decisão), gera autonomamente sinal de treinamento executando um conselho adversarial de múltiplas vozes.
Como o DV-DPO Funciona
O pipeline executa um conselho de 3 vozes em cada pergunta de decisão, produzindo uma síntese. Em seguida, as duas vozes perdedoras examinam a síntese. Se a síntese for revisada sob essa pressão adversarial, um par DPO é formado: a versão pós-revisão é a resposta escolhida, e a versão pré-revisão é a resposta rejeitada. Se a síntese se mantiver — nenhum par é criado. Isso garante que apenas erros genuínos de raciocínio gerem sinal de treinamento, não preferências de formato ou variação de amostragem.
Resultados
- 1.040 pares de treinamento gerados no total (~$3 nas taxas do Haiku)
- Cara a cara com Claude Haiku: Formato 100%, Compromissos 100%, Contexto 89%, Composto 96%
- Latência: 11s na GPU T4 (quantizado em 4 bits) vs 3s do Haiku
- Taxa de falha adversarial: 2% em 96 perguntas direcionadas
Ciclo de Melhoria Autônoma
O sistema agora executa um ciclo automatizado: detector_de_falhas → auto_red_team → pares_DPO → retreinar → reimplantar → avaliar. Os pares da versão 5 estão se acumulando. O modelo ajustado está disponível como um arquivo GGUF pronto para Ollama.
Para Quem é Isso
Desenvolvedores que constroem agentes de raciocínio específicos de domínio e querem migrar de APIs pagas por chamada para um modelo local ajustado, sem anotação humana cara.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

O Easter Egg /buddy do Claude Code e Solicitações de Funcionalidades dos Usuários
O Claude Code inclui um comando oculto /buddy que cria um companheiro estilo Tamagotchi com espécies, estatísticas e comentários decorativos. Um assinante Max com mais de 840 sessões detalhou as limitações atuais e propôs melhorias funcionais.

Claude-Code v2.1.92 adiciona assistente de configuração do Bedrock, detalhamento de custos e várias correções
A versão Claude-Code v2.1.92 introduz um assistente interativo de configuração do AWS Bedrock, detalhamentos de custos por modelo para assinantes e correções para problemas de criação de subagentes, ganchos de prompt e exibição no terminal. A versão também remove os comandos /tag e /vim.

O Claude Code foi removido do plano Pro da Anthropic e agora está disponível apenas nos planos Max
A Anthropic removeu o Claude Code do seu plano Pro (US$ 17-20/mês), disponibilizando-o apenas nos planos Max a partir de US$ 100/mês. O plano Pro agora inclui Claude Cowork, projetos ilimitados, recurso de Pesquisa e acesso a mais modelos Claude.
Claude Agent SDK recebe Créditos Mensais Dedicados para Uso Programático a partir de 15 de Junho
A partir de 15 de junho, os planos pagos do Claude recebem um crédito mensal separado para uso programático (Agent SDK, claude-p, GitHub Actions do Claude Code, ferramentas de terceiros). O Pro ganha $20, Max 5x $100, etc. O uso pausa se o crédito acabar e os créditos de uso adicional estiverem desligados.