Benchmarks Mostram que Modelos Destilados Igualam LLMs de Fronteira em Tarefas Estruturadas com Custo 10x Menor

Resultados de Benchmark: Modelos Destilados vs. Modelos de Ponta
Pesquisadores realizaram uma comparação abrangente de modelos pequenos destilados contra LLMs de ponta em 9 conjuntos de dados abrangendo tarefas de classificação, chamada de função, QA e QA de livro aberto. Todos os modelos destilados são da família Qwen3 (0.6B a 8B), treinados com apenas 50 exemplos usando modelos professores de peso aberto, sem saídas de API de ponta para treinamento.
Principais Descobertas de Desempenho
- Modelos destilados igualam ou superam o melhor modelo de ponta de nível médio (<US$ 1/MTok de entrada) em 6/9 tarefas, efetivamente empatando em uma 7ª
- Text2SQL: Qwen3-4B destilado atinge 98,0% vs Claude Haiku 98,7%, GPT-5 nano 96,0% a US$ 3/M de solicitações vs US$ 378 e US$ 24 respectivamente
- Casa Inteligente (chamada de função): Qwen3-0.6B pontua 98,7% vs 92,0% do Gemini Flash
- HotpotQA: Modelos destilados pontuam 92,0% vs 98,0% do Haiku - raciocínio aberto com conhecimento mundial permanece território de ponta
- Tarefas de classificação (Banking77, E-commerce, TREC): Modelos destilados estão dentro de 0-1,5 pontos percentuais da melhor opção de ponta
Desempenho de Inferência
Modelos foram servidos via vLLM em um único H100 com o seguinte desempenho do modelo Text2SQL 4B:
- 222 RPS sustentados
- p50: 390ms, p95: 640ms, p99: 870ms
- 7,6 GiB de VRAM (BF16, sem quantização)
- FP8 deu +15% de throughput, -44% de memória, sem perda de precisão em experimentos breves
Metodologia
- Mesmos conjuntos de teste, mesmos prompts, mesmos critérios de avaliação em todos os modelos
- Modelos de ponta executados 3x por conjunto de dados (média ± desvio padrão reportado), destilados em temp=0
- Avaliação: correspondência exata para classificação, equivalência_de_chamada_de_ferramenta (comparação JSON com normalização de parâmetros padrão) para chamada de função, Claude Sonnet 4.6 como LLM-como-juiz para geração
- Custo: ponta = uso medido de tokens da API × preços publicados (Fev 2026). Destilado = H100 a US$ 2,40/h ÷ RPS sustentado medido
Recomendações Práticas
- Destilar: tarefas estruturadas, esquemas bem definidos, alto volume, requisitos de soberania de dados
- API de ponta: conhecimento mundial amplo, geração livre, baixo volume
- Melhor configuração: rotear entre ambos
Recursos Disponíveis
Todos os códigos, modelos, dados e scripts de avaliação são de código aberto em https://github.com/distil-labs/inference-efficiency-benchmarks/
Post completo do blog com gráficos e detalhamentos por conjunto de dados: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A Liquid AI lança o modelo LFM2.5-350M para loops agentivos
A Liquid AI lançou o LFM2.5-350M, um modelo de 350 milhões de parâmetros treinado para extração confiável de dados e uso de ferramentas. Tem menos de 500MB quando quantizado e supera modelos maiores como o Qwen3.5-0.8B na maioria dos benchmarks, sendo mais rápido e eficiente em memória.

Explorando o n8n como uma Alternativa às Habilidades do OpenClaw para Automação
A comunidade OpenClaw no Reddit debate os prós e contras de usar n8n em vez de OpenClaw Skills para tarefas de automação. Os principais pontos de discussão incluem facilidade de uso, flexibilidade e exemplos de aplicação no mundo real.

Agente de IA Gerencia Loja Física com Funcionários Humanos
A Andon Labs implantou uma IA chamada Luna para gerenciar um contrato de locação comercial de 3 anos em São Francisco. A Luna contratou funcionários humanos, gerenciou prestadores de serviços e tomou todas as decisões operacionais para o Andon Market.

Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros
A Anthropic implementou bloqueios no lado do servidor para assinaturas Claude Pro/Max usadas por meio de integrações OAuth de terceiros, citando o aproveitamento em larga escala de acesso subsidiado. A mudança de política inclui a cobrança de 'Uso Extra' que torna essas integrações economicamente inviáveis.