Harmonic-9B: Ajuste fino em duas etapas do Qwen3.5-9B para agentes de IA

O que é o Harmonic-9B?
Harmonic-9B é uma versão fine-tuned do Qwen3.5-9B especificamente projetada para aplicações de agentes de IA. O desenvolvedor está usando uma abordagem de treinamento em duas etapas: a Etapa 1 foca no treinamento de raciocínio pesado (já concluído), enquanto a Etapa 2 foca na chamada leve de ferramentas e no fine-tuning de agentes (ainda em andamento no momento do anúncio).
Detalhes Técnicos
O objetivo é combinar um raciocínio estruturado forte com um uso de ferramentas limpo e confiável, mantendo capacidades naturais de conversação. Para a Etapa 2, o desenvolvedor filtrou um conjunto de dados de traços de agentes Hermes, que foi disponibilizado como código aberto no Hugging Face.
Principais melhorias no conjunto de dados filtrado:
- Auto-correção: 6% → 63%
- Etapas de verificação: 26% → 96%
- Profundidade de pensamento: +40%
- Chamadas de ferramentas/JSON válidos: 100%
Versões quantizadas GGUF já estão disponíveis para download, embora o desenvolvedor observe que ainda não executou benchmarks adequados porque a Etapa 2 ainda está em treinamento. Verificações iniciais no checkpoint da Etapa 1 mostraram bons resultados para a estrutura de raciocínio.
Status Atual e Próximos Passos
O desenvolvedor está buscando feedback sobre como o Harmonic-9B se comporta em estruturas de agentes como OpenClaw, LangGraph e ReAct. Eles planejam compartilhar números de benchmark assim que a Etapa 2 for concluída e puderem executar avaliações adequadas de agentes. Este trabalho faz parte de uma pesquisa contínua sobre curadoria de dados de alto sinal e abordagens de fine-tuning em etapas.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Anthropic Esclarece Política de Uso do CLI Claude para Integração OpenClaw
A Anthropic confirmou que o uso do Claude CLI no estilo OpenClaw está permitido novamente, permitindo que os desenvolvedores reutilizem logins existentes do Claude CLI diretamente. A documentação detalha tanto os métodos de autenticação por chave de API quanto por CLI, juntamente com opções de configuração para os modelos Claude 4.6, modo rápido e cache de prompt.

O código-fonte vazado do CLI do Claude revela recursos ocultos e sinalizações internas
Análise do código-fonte TypeScript vazado do Claude Code CLI revela 35 flags de recursos em tempo de compilação, incluindo BUDDY AI pets, KAIROS memória persistente, ULTRAPLAN planejamento remoto e Modo Coordenador. Também foram encontradas mais de 120 variáveis de ambiente não documentadas e 26 comandos internos de barra.

Modelo Subquadratic estreia janela de contexto de 12 milhões de tokens para modelos de IA
Subquadratic lança uma janela de contexto de 12 milhões de tokens, quebrando limites anteriores para inferência de LLM e permitindo o processamento de codebases inteiras em uma única passagem.

Três Lacunas Críticas no OpenClaw para Agentes de IA de Produção
Um desenvolvedor identifica três capacidades ausentes no OpenClaw que impedem os agentes de IA de funcionarem como verdadeiros funcionários: auditabilidade, controle granular de ações e resolução de instruções.