Los Modelos Qwen3 Small Ajustados Superan a los LLMs de Vanguardia en Tareas Específicas con Menor Costo

Una comparación sistemática de los pequeños modelos destilados Qwen3 frente a modelos API de vanguardia muestra que los modelos de lenguaje pequeños ajustados pueden superar a modelos más grandes y costosos en tareas estructuradas específicas.
Resultados de Referencia
El estudio comparó modelos Qwen3 (de 0.6B a 8B parámetros) frente a APIs de vanguardia que incluyen GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, y Grok 4.1 Fast/Grok 4 a través de 9 conjuntos de datos. Todos los modelos destilados fueron entrenados usando únicamente maestros de peso abierto, con tan solo 50 ejemplos. La inferencia se ejecutó en vLLM en una sola H100.
Hallazgos Clave de Rendimiento
- Llamadas a funciones de Hogar Inteligente: Qwen3-0.6B logró un 98.7% de precisión frente al 92.0% de Gemini Flash
- Text2SQL: Qwen3-4B destilado obtuvo un 98.0% frente al 98.7% de Claude Haiku y el 96.0% de GPT-5 nano
- Comparación de costos: Costo por millón de solicitudes en Text2SQL: Qwen3-4B ~$3 vs. Claude Haiku $378 y GPT-5 nano $24
- Tareas de clasificación: Los modelos destilados se desempeñaron dentro de 0–1.5 puntos porcentuales de la mejor opción de vanguardia en los conjuntos de datos Banking77, E-commerce y TREC
- Ventaja de vanguardia: HotpotQA (razonamiento abierto + conocimiento del mundo) — 92.0% vs. 98.0% de Haiku
Métricas de Rendimiento
Para Text2SQL con Qwen3-4B en H100:
- 222 RPS sostenidos
- p50: 390ms | p95: 640ms | p99: 870ms
- 7.6 GiB de VRAM (BF16, sin cuantización)
- FP8 dio +15% de rendimiento, −44% de VRAM, sin pérdida de precisión medible en experimentos breves
Metodología
- Mismos conjuntos de prueba, indicaciones y criterios de evaluación para todos los modelos
- Modelos de vanguardia ejecutados 3× por conjunto de datos (reportando media ± desv. estándar), destilados a temperatura=0
- Evaluación: coincidencia exacta para clasificación, equivalencia de llamada a herramienta (comparación JSON con normalización de parámetros por defecto) para llamadas a funciones, Claude Sonnet 4.6 como juez-LLM para tareas de generación
- Cálculo de costos: vanguardia = uso de tokens medido × precios publicados (feb 2026); destilado = H100 a $2.40/hr ÷ RPS sostenidos
Recomendaciones Prácticas
- Usar modelos destilados cuando: Tengas tareas estructuradas, esquemas bien definidos, alto volumen o necesidades de soberanía de datos
- Usar APIs de vanguardia cuando: Necesites conocimiento amplio del mundo, generación libre o el volumen sea tan bajo que el costo no importe
- Enfoque híbrido: Enrutar entre los dos según los requisitos de la tarea
Disponibilidad
Todo el código, modelos, datos y scripts de evaluación son de código abierto en GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/
Análisis completo con gráficos disponible en el blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Google Chrome instala silenciosamente el modelo de IA Gemini Nano de 4 GB sin consentimiento del usuario
Se ha descubierto que Google Chrome descarga e instala silenciosamente el modelo de IA Gemini Nano de 4 GB en los dispositivos de los usuarios sin consentimiento explícito, lo que genera preocupaciones sobre la privacidad y el almacenamiento.

2,000 horas con Claude Code: El verdadero cambio es de la codificación al juicio
Un desarrollador dedicó 2.000 horas dirigiendo a Claude Code desde enero. La sorpresa: cuanto mejor ejecuta el agente, más se reduce el rol humano al juicio: definir problemas, verificar resultados y detener caminos erróneos.

Resultados de Referencia de Razonamiento Visual para 15 Modelos de IA Multimodales
AIMultiple evaluó 15 modelos líderes de IA multimodal con 200 preguntas de razonamiento visual en dos categorías: comprensión de gráficos y lógica visual. Gemini-3.1-pro-preview y Gemini-3-pro-preview lideran los resultados generales, seguidos por GPT-5.2, Kimi-K2.5 y GPT-5.2-pro.

Reseña de OpenClaw: Problemas de Fiabilidad en su Estado Actual, Valor como Herramienta de Aprendizaje
Un desarrollador con amplia experiencia en plataformas de IA informa que OpenClaw tiene dificultades con la confiabilidad en tareas básicas de múltiples pasos, lo que hace cuestionables las aplicaciones empresariales autónomas, pero encuentra valor en aprender la estructura y orquestación de agentes.