Benchmarks Mostram que Modelos Destilados Igualam LLMs de Fronteira em Tarefas Estruturadas com Custo 10x Menor

✍️ OpenClawRadar📅 Publicado: March 7, 2026🔗 Source
Benchmarks Mostram que Modelos Destilados Igualam LLMs de Fronteira em Tarefas Estruturadas com Custo 10x Menor
Ad

Resultados de Benchmark: Modelos Destilados vs. Modelos de Ponta

Pesquisadores realizaram uma comparação abrangente de modelos pequenos destilados contra LLMs de ponta em 9 conjuntos de dados abrangendo tarefas de classificação, chamada de função, QA e QA de livro aberto. Todos os modelos destilados são da família Qwen3 (0.6B a 8B), treinados com apenas 50 exemplos usando modelos professores de peso aberto, sem saídas de API de ponta para treinamento.

Principais Descobertas de Desempenho

  • Modelos destilados igualam ou superam o melhor modelo de ponta de nível médio (<US$ 1/MTok de entrada) em 6/9 tarefas, efetivamente empatando em uma 7ª
  • Text2SQL: Qwen3-4B destilado atinge 98,0% vs Claude Haiku 98,7%, GPT-5 nano 96,0% a US$ 3/M de solicitações vs US$ 378 e US$ 24 respectivamente
  • Casa Inteligente (chamada de função): Qwen3-0.6B pontua 98,7% vs 92,0% do Gemini Flash
  • HotpotQA: Modelos destilados pontuam 92,0% vs 98,0% do Haiku - raciocínio aberto com conhecimento mundial permanece território de ponta
  • Tarefas de classificação (Banking77, E-commerce, TREC): Modelos destilados estão dentro de 0-1,5 pontos percentuais da melhor opção de ponta

Desempenho de Inferência

Modelos foram servidos via vLLM em um único H100 com o seguinte desempenho do modelo Text2SQL 4B:

  • 222 RPS sustentados
  • p50: 390ms, p95: 640ms, p99: 870ms
  • 7,6 GiB de VRAM (BF16, sem quantização)
  • FP8 deu +15% de throughput, -44% de memória, sem perda de precisão em experimentos breves
Ad

Metodologia

  • Mesmos conjuntos de teste, mesmos prompts, mesmos critérios de avaliação em todos os modelos
  • Modelos de ponta executados 3x por conjunto de dados (média ± desvio padrão reportado), destilados em temp=0
  • Avaliação: correspondência exata para classificação, equivalência_de_chamada_de_ferramenta (comparação JSON com normalização de parâmetros padrão) para chamada de função, Claude Sonnet 4.6 como LLM-como-juiz para geração
  • Custo: ponta = uso medido de tokens da API × preços publicados (Fev 2026). Destilado = H100 a US$ 2,40/h ÷ RPS sustentado medido

Recomendações Práticas

  • Destilar: tarefas estruturadas, esquemas bem definidos, alto volume, requisitos de soberania de dados
  • API de ponta: conhecimento mundial amplo, geração livre, baixo volume
  • Melhor configuração: rotear entre ambos

Recursos Disponíveis

Todos os códigos, modelos, dados e scripts de avaliação são de código aberto em https://github.com/distil-labs/inference-efficiency-benchmarks/

Post completo do blog com gráficos e detalhamentos por conjunto de dados: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

A Liquid AI lança o modelo LFM2.5-350M para loops agentivos
News

A Liquid AI lança o modelo LFM2.5-350M para loops agentivos

A Liquid AI lançou o LFM2.5-350M, um modelo de 350 milhões de parâmetros treinado para extração confiável de dados e uso de ferramentas. Tem menos de 500MB quando quantizado e supera modelos maiores como o Qwen3.5-0.8B na maioria dos benchmarks, sendo mais rápido e eficiente em memória.

OpenClawRadar
Explorando o n8n como uma Alternativa às Habilidades do OpenClaw para Automação
News

Explorando o n8n como uma Alternativa às Habilidades do OpenClaw para Automação

A comunidade OpenClaw no Reddit debate os prós e contras de usar n8n em vez de OpenClaw Skills para tarefas de automação. Os principais pontos de discussão incluem facilidade de uso, flexibilidade e exemplos de aplicação no mundo real.

OpenClawRadar
Agente de IA Gerencia Loja Física com Funcionários Humanos
News

Agente de IA Gerencia Loja Física com Funcionários Humanos

A Andon Labs implantou uma IA chamada Luna para gerenciar um contrato de locação comercial de 3 anos em São Francisco. A Luna contratou funcionários humanos, gerenciou prestadores de serviços e tomou todas as decisões operacionais para o Andon Market.

OpenClawRadar
Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros
News

Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros

A Anthropic implementou bloqueios no lado do servidor para assinaturas Claude Pro/Max usadas por meio de integrações OAuth de terceiros, citando o aproveitamento em larga escala de acesso subsidiado. A mudança de política inclui a cobrança de 'Uso Extra' que torna essas integrações economicamente inviáveis.

OpenClawRadar