Qwen3-0.6B Ajustado Supera Modelo de 120B em Funções IoT

O que é isso

A Distil Labs lançou um pipeline completo que ajusta um pequeno modelo Qwen3 de 0,6 bilhão de parâmetros para superar um modelo professor de 120 bilhões de parâmetros em tarefas estruturadas de chamada de função. O pipeline extrai rastreamentos de produção, gera dados de treinamento sintéticos e treina um modelo especialista que é 200 vezes menor que o professor.

Resultados de desempenho

Professor (GPT-OSS-120B): 50,0% de equivalência de chamada de ferramenta
Qwen3-0.6B base (sem ajuste fino): 10,3% de equivalência de chamada de ferramenta
Qwen3-0.6B com ajuste fino: 79,5% de equivalência de chamada de ferramenta

A tarefa é a chamada de função de casa inteligente IoT: rotear comandos em linguagem natural como "acender as luzes da cozinha" ou "me faça um café às 7h" para a função correta com os parâmetros certos. A pontuação é baseada em correspondência estruturada exata, não em pontuação aproximada.

Por que o modelo pequeno vence

O professor de 120B é um modelo de propósito geral que nunca viu esses esquemas de função específicos ou padrões de formulação do usuário. Ele frequentemente produz respostas verbosas ou ligeiramente fora do formato. O aluno de 0,6B é um especialista treinado exclusivamente nesta tarefa, então ele acerta consistentemente o formato exato de saída.

Arquitetura do pipeline

O pipeline de três estágios:

Extração de dados: dlt extrai rastreamentos de produção de bancos de dados, APIs, armazenamento em nuvem ou agregadores de logs e os grava no Hugging Face como conjuntos de dados Parquet limpos
Curadoria automática: Um juiz LLM pontua e filtra rastreamentos para selecionar exemplos iniciais de alta qualidade (nenhuma anotação manual necessária)
Geração de dados sintéticos e treinamento: A Distil Labs usa os rastreamentos como contexto de domínio, gera ~10.000 exemplos de treinamento sintéticos com um professor grande, valida e filtra eles, então ajusta o modelo aluno

A ideia principal: em vez de treinar diretamente em rastreamentos brutos, eles são usados como contexto para que o gerador de dados sintéticos produza exemplos correspondentes ao vocabulário real, esquemas de função e padrões de formulação de usuários reais.

Conjunto de dados e detalhes práticos

Usou o conjunto de dados Amazon MASSIVE (16k+ enunciados, 60 intenções) como substituto para tráfego de produção
Filtrado para cenário IoT com 9 funções de casa inteligente
~75 exemplos iniciais rotulados foram suficientes (curadoria automática, zero anotação manual)
Treinamento concluído em menos de 12 horas
Inferência do modelo: menos de 50ms localmente vs. 400-700ms para chamadas de API em nuvem
Modelo disponível em formatos safetensors e GGUF no Hugging Face

Considerações de produção

O modelo pontua 79,5% de correspondência exata, o que significa que aproximadamente 1 em cada 5 consultas pode precisar de um fallback. Para uso em produção, você gostaria de um limite de confiança roteando previsões de baixa confiança para um modelo maior.

📖 Leia a fonte completa: r/LocalLLaMA