Modelos Qwen3 Small Ajustados Superam LLMs de Ponta em Tarefas Específicas com Custo Menor

✍️ OpenClawRadar📅 Publicado: March 9, 2026🔗 Source
Modelos Qwen3 Small Ajustados Superam LLMs de Ponta em Tarefas Específicas com Custo Menor
Ad

Uma comparação sistemática de pequenos modelos Qwen3 destilados contra modelos de API de fronteira mostra que modelos de linguagem pequenos e ajustados podem superar modelos maiores e mais caros em tarefas estruturadas específicas.

Resultados de Benchmark

O estudo comparou modelos Qwen3 (0,6B a 8B parâmetros) contra APIs de fronteira incluindo GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 e Grok 4.1 Fast/Grok 4 em 9 conjuntos de dados. Todos os modelos destilados foram treinados usando apenas professores de peso aberto, com apenas 50 exemplos. A inferência foi executada no vLLM em um único H100.

Principais Descobertas de Desempenho

  • Chamada de funções para Casa Inteligente: Qwen3-0.6B alcançou 98,7% de precisão vs. Gemini Flash com 92,0%
  • Text2SQL: Qwen3-4B destilado obteve 98,0% vs. Claude Haiku com 98,7% e GPT-5 nano com 96,0%
  • Comparação de custo: Custo por milhão de requisições para Text2SQL: Qwen3-4B ~US$ 3 vs. Claude Haiku US$ 378 e GPT-5 nano US$ 24
  • Tarefas de classificação: Modelos destilados performaram dentro de 0–1,5 pontos percentuais da melhor opção de fronteira nos conjuntos de dados Banking77, E-commerce e TREC
  • Vantagem da fronteira: HotpotQA (raciocínio aberto + conhecimento mundial) — 92,0% vs. 98,0% do Haiku

Métricas de Desempenho

Para Text2SQL com Qwen3-4B no H100:

  • 222 RPS sustentados
  • p50: 390ms | p95: 640ms | p99: 870ms
  • 7,6 GiB de VRAM (BF16, sem quantização)
  • FP8 deu +15% de throughput, −44% de VRAM, sem perda mensurável de precisão em experimentos breves
Ad

Metodologia

  • Mesmos conjuntos de teste, prompts e critérios de avaliação para todos os modelos
  • Modelos de fronteira executados 3× por conjunto de dados (relatando média ± desvio padrão), destilados em temperatura=0
  • Avaliação: correspondência exata para classificação, tool_call_equivalence (comparação JSON com normalização de parâmetros padrão) para chamada de funções, Claude Sonnet 4.6 como juiz-LLM para tarefas de geração
  • Cálculo de custo: fronteira = uso de tokens medido × preços publicados (fev 2026); destilado = H100 a US$ 2,40/h ÷ RPS sustentados

Recomendações Práticas

  • Use modelos destilados quando: Você tem tarefas estruturadas, esquemas bem definidos, alto volume ou necessidades de soberania de dados
  • Use APIs de fronteira quando: Você precisa de amplo conhecimento mundial, geração livre ou o volume é baixo o suficiente para que o custo não importe
  • Abordagem híbrida: Roteie entre os dois com base nos requisitos da tarefa

Disponibilidade

Todos os códigos, modelos, dados e scripts de avaliação são de código aberto no GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Análise completa com gráficos disponível no blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Claude Opus 4.1 marca 17,75% no conjunto de dados privado do SWE-Bench Pro, destacando a lacuna entre memorização e raciocínio.
News

Claude Opus 4.1 marca 17,75% no conjunto de dados privado do SWE-Bench Pro, destacando a lacuna entre memorização e raciocínio.

Claude Opus 4.1 obteve 80% no SWE-Bench Verified, mas caiu para 17,75% no conjunto de dados privado do SWE-Bench Pro, com 276 tarefas de 18 bases de código proprietárias de startups. A análise da Scale AI descobriu que os modelos estavam navegando por memória em vez de raciocinar em repositórios familiares.

OpenClawRadar
A Synthetic anuncia grande reestruturação de preços com mudanças significativas nos limites de taxa
News

A Synthetic anuncia grande reestruturação de preços com mudanças significativas nos limites de taxa

A Synthetic está substituindo seus níveis Standard e Pro por pacotes de assinatura a US$ 30/mês, oferecendo 135 mensagens por 5 horas por pacote. Os usuários Pro existentes verão suas 1.250 mensagens por 5 horas reduzidas para 335 mensagens pelo mesmo preço de US$ 60/mês.

OpenClawRadar
GitHub Claude-Code v2.1.27 Lançamento: Principais Atualizações e Correções
News

GitHub Claude-Code v2.1.27 Lançamento: Principais Atualizações e Correções

Claude-Code v2.1.27 aprimora o registro de logs e corrige vários problemas, incluindo gerenciamento de contexto e expiração de token OAuth no VSCode.

OpenClawRadar
A AMI de Yann LeCun levanta US$ 1 bilhão para modelos de mundo de IA, desafiando a abordagem de LLMs.
News

A AMI de Yann LeCun levanta US$ 1 bilhão para modelos de mundo de IA, desafiando a abordagem de LLMs.

A startup de Yann LeCun, AMI, arrecadou mais de US$ 1 bilhão para desenvolver modelos de mundo de IA que compreendem o mundo físico, argumentando que os LLMs sozinhos não alcançarão inteligência em nível humano. A empresa construirá sistemas com memória persistente, capacidade de raciocínio e planejamento para aplicações em manufatura, biomedicina e robótica.

OpenClawRadar