Qwen3-0.6B ajustado supera a modelo de 120B en funciones

Qué es esto

Distil Labs lanzó una canalización completa que ajusta un pequeño modelo Qwen3 de 0.6B parámetros para superar a un modelo maestro de 120B parámetros en tareas estructuradas de llamada a funciones. La canalización extrae trazas de producción, genera datos de entrenamiento sintéticos y entrena un modelo especialista que es 200 veces más pequeño que el maestro.

Resultados de rendimiento

Maestro (GPT-OSS-120B): 50.0% equivalencia en llamadas a herramientas
Qwen3-0.6B base (sin ajuste): 10.3% equivalencia en llamadas a herramientas
Qwen3-0.6B ajustado: 79.5% equivalencia en llamadas a herramientas

La tarea es la llamada a funciones de hogares inteligentes IoT: dirigir comandos en lenguaje natural como "enciende las luces de la cocina" o "prepárame un café a las 7am" a la función correcta con los parámetros adecuados. La puntuación se basa en coincidencia estructurada exacta, no en puntuación aproximada.

Por qué gana el modelo pequeño

El maestro de 120B es un modelo de propósito general que nunca ha visto estos esquemas de funciones específicos o patrones de expresión de usuarios. A menudo produce respuestas verbosas o ligeramente fuera de formato. El estudiante de 0.6B es un especialista entrenado exclusivamente en esta tarea, por lo que consigue consistentemente el formato de salida exacto.

Arquitectura de la canalización

La canalización de tres etapas:

Extracción de datos: dlt extrae trazas de producción de bases de datos, APIs, almacenamiento en la nube o agregadores de registros y las escribe en Hugging Face como conjuntos de datos Parquet limpios
Curación automática: Un juez LLM puntúa y filtra trazas para seleccionar ejemplos semilla de alta calidad (no se requiere anotación manual)
Generación de datos sintéticos y entrenamiento: Distil Labs utiliza las trazas como contexto de dominio, genera ~10,000 ejemplos de entrenamiento sintéticos con un maestro grande, los valida y filtra, luego ajusta el modelo estudiante

La idea clave: en lugar de entrenar directamente con trazas en bruto, se utilizan como contexto para que el generador de datos sintéticos produzca ejemplos que coincidan con el vocabulario real, esquemas de funciones y patrones de expresión de usuarios reales.

Conjunto de datos y detalles prácticos

Se utilizó el conjunto de datos Amazon MASSIVE (16k+ expresiones, 60 intenciones) como sustituto del tráfico de producción
Filtrado para escenario IoT con 9 funciones de hogar inteligente
~75 ejemplos semilla etiquetados fueron suficientes (curación automática, cero anotación manual)
Entrenamiento completado en menos de 12 horas
Inferencia del modelo: menos de 50ms localmente vs. 400-700ms para llamadas API en la nube
Modelo disponible en formatos safetensors y GGUF en Hugging Face

Consideraciones de producción

El modelo puntúa 79.5% de coincidencia exacta, lo que significa que aproximadamente 1 de cada 5 consultas puede necesitar una alternativa. Para uso en producción, querrías un umbral de confianza que dirija predicciones de baja confianza a un modelo más grande.

📖 Read the full source: r/LocalLLaMA

El modelo Qwen3-0.6B ajustado supera al maestro de 120B en llamadas a funciones estructuradas.

Qué es esto

Resultados de rendimiento

Por qué gana el modelo pequeño

Arquitectura de la canalización

Conjunto de datos y detalles prácticos

Consideraciones de producción

👀 Ver también

Fábrica de Agentes: Sistema Autónomo Construye Agentes de IA a partir de Discusiones de Problemas en Línea

El hook de pre-commit de Git evita que los agentes de codificación con IA realicen commits con documentación desactualizada.

La Habilidad OpenClaw Conecta a los Agentes con la Interfaz de Usuario de Knods.io para la Creación de Flujos de Trabajo

Atelier v0.3 agrega revisiones específicas de markdown con Claude Code.