Qwen3 8B Supera GPT-5 em 6 Tarefas a US$3/Milhão

Uma comparação sistemática de pequenos modelos Qwen3 destilados contra modelos de API de fronteira mostra que modelos de linguagem pequenos e ajustados podem superar modelos maiores e mais caros em tarefas estruturadas específicas.

Resultados de Benchmark

O estudo comparou modelos Qwen3 (0,6B a 8B parâmetros) contra APIs de fronteira incluindo GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 e Grok 4.1 Fast/Grok 4 em 9 conjuntos de dados. Todos os modelos destilados foram treinados usando apenas professores de peso aberto, com apenas 50 exemplos. A inferência foi executada no vLLM em um único H100.

Principais Descobertas de Desempenho

Chamada de funções para Casa Inteligente: Qwen3-0.6B alcançou 98,7% de precisão vs. Gemini Flash com 92,0%
Text2SQL: Qwen3-4B destilado obteve 98,0% vs. Claude Haiku com 98,7% e GPT-5 nano com 96,0%
Comparação de custo: Custo por milhão de requisições para Text2SQL: Qwen3-4B ~US$ 3 vs. Claude Haiku US$ 378 e GPT-5 nano US$ 24
Tarefas de classificação: Modelos destilados performaram dentro de 0–1,5 pontos percentuais da melhor opção de fronteira nos conjuntos de dados Banking77, E-commerce e TREC
Vantagem da fronteira: HotpotQA (raciocínio aberto + conhecimento mundial) — 92,0% vs. 98,0% do Haiku

Métricas de Desempenho

Para Text2SQL com Qwen3-4B no H100:

222 RPS sustentados
p50: 390ms | p95: 640ms | p99: 870ms
7,6 GiB de VRAM (BF16, sem quantização)
FP8 deu +15% de throughput, −44% de VRAM, sem perda mensurável de precisão em experimentos breves

Metodologia

Mesmos conjuntos de teste, prompts e critérios de avaliação para todos os modelos
Modelos de fronteira executados 3× por conjunto de dados (relatando média ± desvio padrão), destilados em temperatura=0
Avaliação: correspondência exata para classificação, tool_call_equivalence (comparação JSON com normalização de parâmetros padrão) para chamada de funções, Claude Sonnet 4.6 como juiz-LLM para tarefas de geração
Cálculo de custo: fronteira = uso de tokens medido × preços publicados (fev 2026); destilado = H100 a US$ 2,40/h ÷ RPS sustentados

Recomendações Práticas

Use modelos destilados quando: Você tem tarefas estruturadas, esquemas bem definidos, alto volume ou necessidades de soberania de dados
Use APIs de fronteira quando: Você precisa de amplo conhecimento mundial, geração livre ou o volume é baixo o suficiente para que o custo não importe
Abordagem híbrida: Roteie entre os dois com base nos requisitos da tarefa

Disponibilidade

Todos os códigos, modelos, dados e scripts de avaliação são de código aberto no GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Análise completa com gráficos disponível no blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Leia a fonte completa: r/LocalLLaMA

Modelos Qwen3 Small Ajustados Superam LLMs de Ponta em Tarefas Específicas com Custo Menor

Resultados de Benchmark

Principais Descobertas de Desempenho

Métricas de Desempenho

Metodologia

Recomendações Práticas

Disponibilidade

👀 See Also

Jogadores de Go se submetem à IA: Como a trapaça se tornou indetectável

A Necessidade de Governança Relacional em Sistemas de IA Multiagentes

Inteligência da Apple e Siri AI: Assistente Reimaginado com Inteligência Visual e Ferramentas de Escrita

Explicação da Taxa de Acerto de Cache e Relação de Preço do DeepSeek V4 Flash