Harmonic-9B: Ajuste fino en dos etapas de Qwen3.5-9B para agentes de IA

¿Qué es Harmonic-9B?
Harmonic-9B es una versión ajustada de Qwen3.5-9B específicamente diseñada para aplicaciones de agentes de IA. El desarrollador está utilizando un enfoque de entrenamiento en dos etapas: la Etapa 1 se centra en el entrenamiento de razonamiento intensivo (ya completado), mientras que la Etapa 2 se enfoca en llamadas a herramientas ligeras y ajuste fino de agentes (aún en progreso al momento del anuncio).
Detalles Técnicos
El objetivo es combinar un razonamiento estructurado sólido con un uso de herramientas limpio y confiable, manteniendo capacidades de chat natural. Para la Etapa 2, el desarrollador ha filtrado un conjunto de datos de trazas de agentes Hermes, que ha publicado como código abierto en Hugging Face.
Mejoras clave en el conjunto de datos filtrado:
- Autocorrección: 6% → 63%
- Pasos de verificación: 26% → 96%
- Profundidad de pensamiento: +40%
- Llamadas a herramientas/JSON válidos: 100%
Ya están disponibles versiones cuantizadas GGUF para descargar, aunque el desarrollador señala que aún no ha ejecutado pruebas de referencia adecuadas porque la Etapa 2 sigue en entrenamiento. Las verificaciones iniciales en el punto de control de la Etapa 1 mostraron buenos resultados para la estructura de razonamiento.
Estado Actual y Próximos Pasos
El desarrollador está buscando comentarios sobre cómo se comporta Harmonic-9B en entornos de agentes como OpenClaw, LangGraph y ReAct. Planean compartir números de referencia una vez que finalice la Etapa 2 y puedan ejecutar evaluaciones adecuadas de agentes. Este trabajo es parte de una investigación continua sobre la curación de datos de alta señal y enfoques de ajuste fino por etapas.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Punto de Referencia de Estrategias de Comercio: Modelos de IA Más Económicos Superan a Claude Opus 4.6
Una prueba comparativa evaluó a 10 LLMs en el desarrollo de estrategias de trading, donde modelos más económicos como Minimax 2.5 y Gemini 3.1 superaron a Claude Opus 4.6 a pesar de su costo 10 veces mayor. El experimento se ejecutó tres veces con resultados consistentes.

Comprensión de la ponderación de directivas en LLM: por qué Claude a veces ignora comandos
Una investigación de Reddit revela cómo Claude puede ignorar instrucciones explícitas como "no hacer coincidencia de patrones" al generar revisiones de código, demostrando que las directivas de los LLM son contexto ponderado en lugar de restricciones.

El Uso de la API de Artefactos de Claude Cuenta Contra la Cuota de Chat, No Contra la Facturación de la API
El uso de artefactos de Claude dentro de Claude realiza llamadas API normales que son interceptadas por Anthropic y autenticadas a través de la sesión iniciada, contando contra la cuota de chat de un plan en lugar de la facturación de API. Los usuarios pueden verificar esto probando artefactos y comprobando que el uso de API permanece en cero en la Consola de Claude.

Claude.ai está experimentando errores elevados y problemas de inicio de sesión para Claude Code
Claude.ai está experimentando errores elevados, incluyendo problemas de inicio de sesión para Claude Code, desde el 11 de marzo de 2026. El incidente fue reportado automáticamente dentro de los 2 minutos posteriores a una actualización oficial del estado del sistema.