Ajuste fino do Qwen2.5-7B para 96% do Claude Haiku com US$3 e zero rotuladores humanos

✍️ OpenClawRadar📅 Publicado: June 11, 2026🔗 Source

Um desenvolvedor ajustou o Qwen2.5-7B para alcançar 96% do desempenho composto do Claude Haiku em uma tarefa de raciocínio de decisão específica do domínio — gastando apenas ~$3 em chamadas de API e usando zero anotadores humanos. O método, chamado DV-DPO (Otimização Direta de Preferência Validada por Decisão), gera autonomamente sinal de treinamento executando um conselho adversarial de múltiplas vozes.

Como o DV-DPO Funciona

O pipeline executa um conselho de 3 vozes em cada pergunta de decisão, produzindo uma síntese. Em seguida, as duas vozes perdedoras examinam a síntese. Se a síntese for revisada sob essa pressão adversarial, um par DPO é formado: a versão pós-revisão é a resposta escolhida, e a versão pré-revisão é a resposta rejeitada. Se a síntese se mantiver — nenhum par é criado. Isso garante que apenas erros genuínos de raciocínio gerem sinal de treinamento, não preferências de formato ou variação de amostragem.

Resultados

1.040 pares de treinamento gerados no total (~$3 nas taxas do Haiku)
Cara a cara com Claude Haiku: Formato 100%, Compromissos 100%, Contexto 89%, Composto 96%
Latência: 11s na GPU T4 (quantizado em 4 bits) vs 3s do Haiku
Taxa de falha adversarial: 2% em 96 perguntas direcionadas

Ciclo de Melhoria Autônoma

O sistema agora executa um ciclo automatizado: detector_de_falhas → auto_red_team → pares_DPO → retreinar → reimplantar → avaliar. Os pares da versão 5 estão se acumulando. O modelo ajustado está disponível como um arquivo GGUF pronto para Ollama.

Para Quem é Isso

Desenvolvedores que constroem agentes de raciocínio específicos de domínio e querem migrar de APIs pagas por chamada para um modelo local ajustado, sem anotação humana cara.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

News

O Easter Egg /buddy do Claude Code e Solicitações de Funcionalidades dos Usuários

O Claude Code inclui um comando oculto /buddy que cria um companheiro estilo Tamagotchi com espécies, estatísticas e comentários decorativos. Um assinante Max com mais de 840 sessões detalhou as limitações atuais e propôs melhorias funcionais.

Apr 20, 2026, 08:46 PM UTC

OpenClawRadar

News

Claude-Code v2.1.92 adiciona assistente de configuração do Bedrock, detalhamento de custos e várias correções

A versão Claude-Code v2.1.92 introduz um assistente interativo de configuração do AWS Bedrock, detalhamentos de custos por modelo para assinantes e correções para problemas de criação de subagentes, ganchos de prompt e exibição no terminal. A versão também remove os comandos /tag e /vim.

Apr 13, 2026, 03:56 PM UTC

OpenClawRadar

News

O Claude Code foi removido do plano Pro da Anthropic e agora está disponível apenas nos planos Max

A Anthropic removeu o Claude Code do seu plano Pro (US$ 17-20/mês), disponibilizando-o apenas nos planos Max a partir de US$ 100/mês. O plano Pro agora inclui Claude Cowork, projetos ilimitados, recurso de Pesquisa e acesso a mais modelos Claude.

Apr 21, 2026, 10:15 PM UTC

OpenClawRadar

🦀

News

Claude Agent SDK recebe Créditos Mensais Dedicados para Uso Programático a partir de 15 de Junho

A partir de 15 de junho, os planos pagos do Claude recebem um crédito mensal separado para uso programático (Agent SDK, claude-p, GitHub Actions do Claude Code, ferramentas de terceiros). O Pro ganha $20, Max 5x $100, etc. O uso pausa se o crédito acabar e os créditos de uso adicional estiverem desligados.

May 13, 2026, 06:15 PM UTC

OpenClawRadar