Harmonic-9B: Fine-Tune em Duas Etapas do Qwen3.5-9B para Agentes

O que é o Harmonic-9B?

Harmonic-9B é uma versão fine-tuned do Qwen3.5-9B especificamente projetada para aplicações de agentes de IA. O desenvolvedor está usando uma abordagem de treinamento em duas etapas: a Etapa 1 foca no treinamento de raciocínio pesado (já concluído), enquanto a Etapa 2 foca na chamada leve de ferramentas e no fine-tuning de agentes (ainda em andamento no momento do anúncio).

Detalhes Técnicos

O objetivo é combinar um raciocínio estruturado forte com um uso de ferramentas limpo e confiável, mantendo capacidades naturais de conversação. Para a Etapa 2, o desenvolvedor filtrou um conjunto de dados de traços de agentes Hermes, que foi disponibilizado como código aberto no Hugging Face.

Principais melhorias no conjunto de dados filtrado:

Auto-correção: 6% → 63%
Etapas de verificação: 26% → 96%
Profundidade de pensamento: +40%
Chamadas de ferramentas/JSON válidos: 100%

Versões quantizadas GGUF já estão disponíveis para download, embora o desenvolvedor observe que ainda não executou benchmarks adequados porque a Etapa 2 ainda está em treinamento. Verificações iniciais no checkpoint da Etapa 1 mostraram bons resultados para a estrutura de raciocínio.

Status Atual e Próximos Passos

O desenvolvedor está buscando feedback sobre como o Harmonic-9B se comporta em estruturas de agentes como OpenClaw, LangGraph e ReAct. Eles planejam compartilhar números de benchmark assim que a Etapa 2 for concluída e puderem executar avaliações adequadas de agentes. Este trabalho faz parte de uma pesquisa contínua sobre curadoria de dados de alto sinal e abordagens de fine-tuning em etapas.

📖 Leia a fonte completa: r/LocalLLaMA

Harmonic-9B: Ajuste fino em duas etapas do Qwen3.5-9B para agentes de IA

O que é o Harmonic-9B?

Detalhes Técnicos

Status Atual e Próximos Passos

👀 See Also

OpenClaw 5.4 Adiciona Comandos /steer e /side: Redirecione o Agente Durante a Tarefa Sem Perder Contexto

Claude Code v2.1.193: Nova Classificação de Shell, Telemetria e Correções

Mergulho Profundo na Quantização do Cache KV do Qwen: PPL, Divergência KL e Resultados Assimétricos de K/V

Experiência do desenvolvedor com a Claude AI: De parceiro de reflexão à terceirização cognitiva