El modelo Qwen3-0.6B ajustado supera al maestro de 120B en llamadas a funciones estructuradas.

✍️ OpenClawRadar📅 Publicado: 9 de marzo de 2026🔗 Source
El modelo Qwen3-0.6B ajustado supera al maestro de 120B en llamadas a funciones estructuradas.
Ad

Qué es esto

Distil Labs lanzó una canalización completa que ajusta un pequeño modelo Qwen3 de 0.6B parámetros para superar a un modelo maestro de 120B parámetros en tareas estructuradas de llamada a funciones. La canalización extrae trazas de producción, genera datos de entrenamiento sintéticos y entrena un modelo especialista que es 200 veces más pequeño que el maestro.

Resultados de rendimiento

  • Maestro (GPT-OSS-120B): 50.0% equivalencia en llamadas a herramientas
  • Qwen3-0.6B base (sin ajuste): 10.3% equivalencia en llamadas a herramientas
  • Qwen3-0.6B ajustado: 79.5% equivalencia en llamadas a herramientas

La tarea es la llamada a funciones de hogares inteligentes IoT: dirigir comandos en lenguaje natural como "enciende las luces de la cocina" o "prepárame un café a las 7am" a la función correcta con los parámetros adecuados. La puntuación se basa en coincidencia estructurada exacta, no en puntuación aproximada.

Por qué gana el modelo pequeño

El maestro de 120B es un modelo de propósito general que nunca ha visto estos esquemas de funciones específicos o patrones de expresión de usuarios. A menudo produce respuestas verbosas o ligeramente fuera de formato. El estudiante de 0.6B es un especialista entrenado exclusivamente en esta tarea, por lo que consigue consistentemente el formato de salida exacto.

Ad

Arquitectura de la canalización

La canalización de tres etapas:

  1. Extracción de datos: dlt extrae trazas de producción de bases de datos, APIs, almacenamiento en la nube o agregadores de registros y las escribe en Hugging Face como conjuntos de datos Parquet limpios
  2. Curación automática: Un juez LLM puntúa y filtra trazas para seleccionar ejemplos semilla de alta calidad (no se requiere anotación manual)
  3. Generación de datos sintéticos y entrenamiento: Distil Labs utiliza las trazas como contexto de dominio, genera ~10,000 ejemplos de entrenamiento sintéticos con un maestro grande, los valida y filtra, luego ajusta el modelo estudiante

La idea clave: en lugar de entrenar directamente con trazas en bruto, se utilizan como contexto para que el generador de datos sintéticos produzca ejemplos que coincidan con el vocabulario real, esquemas de funciones y patrones de expresión de usuarios reales.

Conjunto de datos y detalles prácticos

  • Se utilizó el conjunto de datos Amazon MASSIVE (16k+ expresiones, 60 intenciones) como sustituto del tráfico de producción
  • Filtrado para escenario IoT con 9 funciones de hogar inteligente
  • ~75 ejemplos semilla etiquetados fueron suficientes (curación automática, cero anotación manual)
  • Entrenamiento completado en menos de 12 horas
  • Inferencia del modelo: menos de 50ms localmente vs. 400-700ms para llamadas API en la nube
  • Modelo disponible en formatos safetensors y GGUF en Hugging Face

Consideraciones de producción

El modelo puntúa 79.5% de coincidencia exacta, lo que significa que aproximadamente 1 de cada 5 consultas puede necesitar una alternativa. Para uso en producción, querrías un umbral de confianza que dirija predicciones de baja confianza a un modelo más grande.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Fábrica de Agentes: Sistema Autónomo Construye Agentes de IA a partir de Discusiones de Problemas en Línea
Herramientas

Fábrica de Agentes: Sistema Autónomo Construye Agentes de IA a partir de Discusiones de Problemas en Línea

Agent Factory es un sistema autónomo que extrae datos de Reddit, HN, GitHub y Twitter en busca de problemas reales, los evalúa según la demanda, la brecha de mercado y la viabilidad, y luego construye agentes de IA independientes para las ideas más prometedoras. El sistema utiliza una plantilla mínima de Next.js con 7 herramientas y ejecuta Claude Code sin interfaz gráfica mediante un script de shell.

OpenClawRadar
El hook de pre-commit de Git evita que los agentes de codificación con IA realicen commits con documentación desactualizada.
Herramientas

El hook de pre-commit de Git evita que los agentes de codificación con IA realicen commits con documentación desactualizada.

Un desarrollador creó un hook de pre-commit de Git que bloquea los commits cuando los archivos de documentación están desactualizados, abordando específicamente problemas con agentes de codificación con IA como Claude Code, Cursor, Windsurf y Copilot. La herramienta sale con el código de error 1 para obligar a los agentes de IA a actualizar la documentación antes de continuar.

OpenClawRadar
La Habilidad OpenClaw Conecta a los Agentes con la Interfaz de Usuario de Knods.io para la Creación de Flujos de Trabajo
Herramientas

La Habilidad OpenClaw Conecta a los Agentes con la Interfaz de Usuario de Knods.io para la Creación de Flujos de Trabajo

Un desarrollador ha creado una habilidad de OpenClaw que permite a los agentes comprender y crear flujos de trabajo dentro de la interfaz de usuario de Knods.io, lo que permite a los usuarios cambiar entre agentes específicos, como los específicos de marca, en lugar de depender del agente integrado de Knods.

OpenClawRadar
Atelier v0.3 agrega revisiones específicas de markdown con Claude Code.
Herramientas

Atelier v0.3 agrega revisiones específicas de markdown con Claude Code.

Atelier v0.3 es una extensión gratuita de VS Code que te permite resaltar secciones de documentos markdown y enviarlas a Claude Code para revisiones. El agente responde con ediciones específicas en el editor, y puedes rastrear qué comentario aborda cada revisión.

OpenClawRadar