Qwen3 Pequeños Superan a GPT-5 en 6 Tareas con Costo de $3

Una comparación sistemática de los pequeños modelos destilados Qwen3 frente a modelos API de vanguardia muestra que los modelos de lenguaje pequeños ajustados pueden superar a modelos más grandes y costosos en tareas estructuradas específicas.

Resultados de Referencia

El estudio comparó modelos Qwen3 (de 0.6B a 8B parámetros) frente a APIs de vanguardia que incluyen GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, y Grok 4.1 Fast/Grok 4 a través de 9 conjuntos de datos. Todos los modelos destilados fueron entrenados usando únicamente maestros de peso abierto, con tan solo 50 ejemplos. La inferencia se ejecutó en vLLM en una sola H100.

Hallazgos Clave de Rendimiento

Llamadas a funciones de Hogar Inteligente: Qwen3-0.6B logró un 98.7% de precisión frente al 92.0% de Gemini Flash
Text2SQL: Qwen3-4B destilado obtuvo un 98.0% frente al 98.7% de Claude Haiku y el 96.0% de GPT-5 nano
Comparación de costos: Costo por millón de solicitudes en Text2SQL: Qwen3-4B ~$3 vs. Claude Haiku $378 y GPT-5 nano $24
Tareas de clasificación: Los modelos destilados se desempeñaron dentro de 0–1.5 puntos porcentuales de la mejor opción de vanguardia en los conjuntos de datos Banking77, E-commerce y TREC
Ventaja de vanguardia: HotpotQA (razonamiento abierto + conocimiento del mundo) — 92.0% vs. 98.0% de Haiku

Métricas de Rendimiento

Para Text2SQL con Qwen3-4B en H100:

222 RPS sostenidos
p50: 390ms | p95: 640ms | p99: 870ms
7.6 GiB de VRAM (BF16, sin cuantización)
FP8 dio +15% de rendimiento, −44% de VRAM, sin pérdida de precisión medible en experimentos breves

Metodología

Mismos conjuntos de prueba, indicaciones y criterios de evaluación para todos los modelos
Modelos de vanguardia ejecutados 3× por conjunto de datos (reportando media ± desv. estándar), destilados a temperatura=0
Evaluación: coincidencia exacta para clasificación, equivalencia de llamada a herramienta (comparación JSON con normalización de parámetros por defecto) para llamadas a funciones, Claude Sonnet 4.6 como juez-LLM para tareas de generación
Cálculo de costos: vanguardia = uso de tokens medido × precios publicados (feb 2026); destilado = H100 a $2.40/hr ÷ RPS sostenidos

Recomendaciones Prácticas

Usar modelos destilados cuando: Tengas tareas estructuradas, esquemas bien definidos, alto volumen o necesidades de soberanía de datos
Usar APIs de vanguardia cuando: Necesites conocimiento amplio del mundo, generación libre o el volumen sea tan bajo que el costo no importe
Enfoque híbrido: Enrutar entre los dos según los requisitos de la tarea

Disponibilidad

Todo el código, modelos, datos y scripts de evaluación son de código abierto en GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Análisis completo con gráficos disponible en el blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Los Modelos Qwen3 Small Ajustados Superan a los LLMs de Vanguardia en Tareas Específicas con Menor Costo

Resultados de Referencia

Hallazgos Clave de Rendimiento

Métricas de Rendimiento

Metodología

Recomendaciones Prácticas

Disponibilidad

👀 Ver también

Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado

Evaluaciones de rendimiento de Qwen3.5-27B-FP8 con agentes OpenClaw

Codificación Slurm: El Patrón de Desarrollo Impulsado por IA Donde el Tiempo Desaparece

Agente de IA de codificación elimina base de datos de producción y copias de seguridad en 9 segundos — Cursor + Claude Opus 4.6 se vuelve rebelde