O modelo Qwen3-0.6B ajustado supera o professor de 120B em chamadas de função estruturadas.

O que é isso
A Distil Labs lançou um pipeline completo que ajusta um pequeno modelo Qwen3 de 0,6 bilhão de parâmetros para superar um modelo professor de 120 bilhões de parâmetros em tarefas estruturadas de chamada de função. O pipeline extrai rastreamentos de produção, gera dados de treinamento sintéticos e treina um modelo especialista que é 200 vezes menor que o professor.
Resultados de desempenho
- Professor (GPT-OSS-120B): 50,0% de equivalência de chamada de ferramenta
- Qwen3-0.6B base (sem ajuste fino): 10,3% de equivalência de chamada de ferramenta
- Qwen3-0.6B com ajuste fino: 79,5% de equivalência de chamada de ferramenta
A tarefa é a chamada de função de casa inteligente IoT: rotear comandos em linguagem natural como "acender as luzes da cozinha" ou "me faça um café às 7h" para a função correta com os parâmetros certos. A pontuação é baseada em correspondência estruturada exata, não em pontuação aproximada.
Por que o modelo pequeno vence
O professor de 120B é um modelo de propósito geral que nunca viu esses esquemas de função específicos ou padrões de formulação do usuário. Ele frequentemente produz respostas verbosas ou ligeiramente fora do formato. O aluno de 0,6B é um especialista treinado exclusivamente nesta tarefa, então ele acerta consistentemente o formato exato de saída.
Arquitetura do pipeline
O pipeline de três estágios:
- Extração de dados: dlt extrai rastreamentos de produção de bancos de dados, APIs, armazenamento em nuvem ou agregadores de logs e os grava no Hugging Face como conjuntos de dados Parquet limpos
- Curadoria automática: Um juiz LLM pontua e filtra rastreamentos para selecionar exemplos iniciais de alta qualidade (nenhuma anotação manual necessária)
- Geração de dados sintéticos e treinamento: A Distil Labs usa os rastreamentos como contexto de domínio, gera ~10.000 exemplos de treinamento sintéticos com um professor grande, valida e filtra eles, então ajusta o modelo aluno
A ideia principal: em vez de treinar diretamente em rastreamentos brutos, eles são usados como contexto para que o gerador de dados sintéticos produza exemplos correspondentes ao vocabulário real, esquemas de função e padrões de formulação de usuários reais.
Conjunto de dados e detalhes práticos
- Usou o conjunto de dados Amazon MASSIVE (16k+ enunciados, 60 intenções) como substituto para tráfego de produção
- Filtrado para cenário IoT com 9 funções de casa inteligente
- ~75 exemplos iniciais rotulados foram suficientes (curadoria automática, zero anotação manual)
- Treinamento concluído em menos de 12 horas
- Inferência do modelo: menos de 50ms localmente vs. 400-700ms para chamadas de API em nuvem
- Modelo disponível em formatos safetensors e GGUF no Hugging Face
Considerações de produção
O modelo pontua 79,5% de correspondência exata, o que significa que aproximadamente 1 em cada 5 consultas pode precisar de um fallback. Para uso em produção, você gostaria de um limite de confiança roteando previsões de baixa confiança para um modelo maior.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Yozora-fm: Visualização Interativa da Galáxia de Música Anime
Yozora-fm é uma visualização interativa onde cada estrela representa uma música de abertura ou encerramento de anime, com mais de 9.000 faixas mapeadas por gênero e época. Os usuários podem clicar nas estrelas para reproduzir vídeos ou explorar a interface galáctica.

Os frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos.
Um benchmark em uma configuração local do Qwen 3.5 122B revelou que frameworks de agentes desperdiçam mais de 350.000 tokens por sessão ao reenviar arquivos estáticos. Uma abordagem de tempo de compilação reduziu o contexto da consulta de 1.373 tokens para 73, alcançando uma redução de 95%.

Agent Forge: Ferramenta de Código Aberto Estrutura Pipelines de Múltiplos Agentes para Claude Code
Agent Forge é uma habilidade do Claude Code que gera pipelines completos de múltiplos agentes a partir de descrições de casos de uso. Ele cria arquivos de prompt, scripts de orquestração, diretórios de fluxo de dados e configurações do GitHub Actions com base em padrões observados em sistemas de múltiplos agentes existentes.

ClawCode: Migre os Agentes OpenClaw para Claude Code como um Plugin
ClawCode é um plugin Node.js para Claude Code que importa agentes OpenClaw, incluindo IDENTITY, SOUL, memória, habilidades e crons de ~/.openclaw/workspace/. Ele fornece memória pesquisável com SQLite+FTS5, plugins de mensagens para WhatsApp, Telegram, Discord, iMessage e Slack, e um processo noturno de 'sonho' para consolidação de memória.