Qwen3 Destilado Iguala LLMs: 10x Menor Custo em 6/9 Tarefas

Resultados de Benchmark: Modelos Destilados vs. Modelos de Ponta

Pesquisadores realizaram uma comparação abrangente de modelos pequenos destilados contra LLMs de ponta em 9 conjuntos de dados abrangendo tarefas de classificação, chamada de função, QA e QA de livro aberto. Todos os modelos destilados são da família Qwen3 (0.6B a 8B), treinados com apenas 50 exemplos usando modelos professores de peso aberto, sem saídas de API de ponta para treinamento.

Principais Descobertas de Desempenho

Modelos destilados igualam ou superam o melhor modelo de ponta de nível médio (<US$ 1/MTok de entrada) em 6/9 tarefas, efetivamente empatando em uma 7ª
Text2SQL: Qwen3-4B destilado atinge 98,0% vs Claude Haiku 98,7%, GPT-5 nano 96,0% a US$ 3/M de solicitações vs US$ 378 e US$ 24 respectivamente
Casa Inteligente (chamada de função): Qwen3-0.6B pontua 98,7% vs 92,0% do Gemini Flash
HotpotQA: Modelos destilados pontuam 92,0% vs 98,0% do Haiku - raciocínio aberto com conhecimento mundial permanece território de ponta
Tarefas de classificação (Banking77, E-commerce, TREC): Modelos destilados estão dentro de 0-1,5 pontos percentuais da melhor opção de ponta

Desempenho de Inferência

Modelos foram servidos via vLLM em um único H100 com o seguinte desempenho do modelo Text2SQL 4B:

222 RPS sustentados
p50: 390ms, p95: 640ms, p99: 870ms
7,6 GiB de VRAM (BF16, sem quantização)
FP8 deu +15% de throughput, -44% de memória, sem perda de precisão em experimentos breves

Metodologia

Mesmos conjuntos de teste, mesmos prompts, mesmos critérios de avaliação em todos os modelos
Modelos de ponta executados 3x por conjunto de dados (média ± desvio padrão reportado), destilados em temp=0
Avaliação: correspondência exata para classificação, equivalência_de_chamada_de_ferramenta (comparação JSON com normalização de parâmetros padrão) para chamada de função, Claude Sonnet 4.6 como LLM-como-juiz para geração
Custo: ponta = uso medido de tokens da API × preços publicados (Fev 2026). Destilado = H100 a US$ 2,40/h ÷ RPS sustentado medido

Recomendações Práticas

Destilar: tarefas estruturadas, esquemas bem definidos, alto volume, requisitos de soberania de dados
API de ponta: conhecimento mundial amplo, geração livre, baixo volume
Melhor configuração: rotear entre ambos

Recursos Disponíveis

Todos os códigos, modelos, dados e scripts de avaliação são de código aberto em https://github.com/distil-labs/inference-efficiency-benchmarks/

Post completo do blog com gráficos e detalhamentos por conjunto de dados: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Leia a fonte completa: r/LocalLLaMA

Benchmarks Mostram que Modelos Destilados Igualam LLMs de Fronteira em Tarefas Estruturadas com Custo 10x Menor

Resultados de Benchmark: Modelos Destilados vs. Modelos de Ponta

Principais Descobertas de Desempenho

Desempenho de Inferência

Metodologia

Recomendações Práticas

Recursos Disponíveis

👀 See Also

Extensão do Claude Code para IDE falha ao carregar no Windows – Atualização de Status

Claude-Code v2.1.92 adiciona assistente de configuração do Bedrock, detalhamento de custos e várias correções

Plataforma Claude na AWS Agora GA: Agentes Gerenciados, Execução de Código e Paridade Total de API via IAM

Título padrão do trailer do Copilot com coautoria será ativado no VS Code