Los Modelos Qwen3 Small Ajustados Superan a los LLMs de Vanguardia en Tareas Específicas con Menor Costo

Una comparación sistemática de los pequeños modelos destilados Qwen3 frente a modelos API de vanguardia muestra que los modelos de lenguaje pequeños ajustados pueden superar a modelos más grandes y costosos en tareas estructuradas específicas.
Resultados de Referencia
El estudio comparó modelos Qwen3 (de 0.6B a 8B parámetros) frente a APIs de vanguardia que incluyen GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, y Grok 4.1 Fast/Grok 4 a través de 9 conjuntos de datos. Todos los modelos destilados fueron entrenados usando únicamente maestros de peso abierto, con tan solo 50 ejemplos. La inferencia se ejecutó en vLLM en una sola H100.
Hallazgos Clave de Rendimiento
- Llamadas a funciones de Hogar Inteligente: Qwen3-0.6B logró un 98.7% de precisión frente al 92.0% de Gemini Flash
- Text2SQL: Qwen3-4B destilado obtuvo un 98.0% frente al 98.7% de Claude Haiku y el 96.0% de GPT-5 nano
- Comparación de costos: Costo por millón de solicitudes en Text2SQL: Qwen3-4B ~$3 vs. Claude Haiku $378 y GPT-5 nano $24
- Tareas de clasificación: Los modelos destilados se desempeñaron dentro de 0–1.5 puntos porcentuales de la mejor opción de vanguardia en los conjuntos de datos Banking77, E-commerce y TREC
- Ventaja de vanguardia: HotpotQA (razonamiento abierto + conocimiento del mundo) — 92.0% vs. 98.0% de Haiku
Métricas de Rendimiento
Para Text2SQL con Qwen3-4B en H100:
- 222 RPS sostenidos
- p50: 390ms | p95: 640ms | p99: 870ms
- 7.6 GiB de VRAM (BF16, sin cuantización)
- FP8 dio +15% de rendimiento, −44% de VRAM, sin pérdida de precisión medible en experimentos breves
Metodología
- Mismos conjuntos de prueba, indicaciones y criterios de evaluación para todos los modelos
- Modelos de vanguardia ejecutados 3× por conjunto de datos (reportando media ± desv. estándar), destilados a temperatura=0
- Evaluación: coincidencia exacta para clasificación, equivalencia de llamada a herramienta (comparación JSON con normalización de parámetros por defecto) para llamadas a funciones, Claude Sonnet 4.6 como juez-LLM para tareas de generación
- Cálculo de costos: vanguardia = uso de tokens medido × precios publicados (feb 2026); destilado = H100 a $2.40/hr ÷ RPS sostenidos
Recomendaciones Prácticas
- Usar modelos destilados cuando: Tengas tareas estructuradas, esquemas bien definidos, alto volumen o necesidades de soberanía de datos
- Usar APIs de vanguardia cuando: Necesites conocimiento amplio del mundo, generación libre o el volumen sea tan bajo que el costo no importe
- Enfoque híbrido: Enrutar entre los dos según los requisitos de la tarea
Disponibilidad
Todo el código, modelos, datos y scripts de evaluación son de código abierto en GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/
Análisis completo con gráficos disponible en el blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Gemini Embedding 2: El Primer Modelo de Incrustación Nativamente Multimodal de Google Lanzado
Google ha lanzado Gemini Embedding 2, su primer modelo de incrustación multimodal nativo que mapea texto, imágenes, video, audio y documentos en un único espacio de incrustación. El modelo admite hasta 8192 tokens de texto, 6 imágenes por solicitud, 120 segundos de video y PDF de hasta 6 páginas de longitud, con dimensiones de salida flexibles desde 3072 hasta 768.

Evaluaciones de rendimiento de Qwen3.5-27B-FP8 con agentes OpenClaw
Las pruebas muestran que Qwen3.5-27B-FP8 puede ejecutar seis agentes OpenClaw simultáneamente con un rendimiento escalable hasta 120 tokens/segundo. El framework SGLang con caché de prefijo reduce el prellenado de contexto de 100K de 10 segundos a 200 ms.

Codificación Slurm: El Patrón de Desarrollo Impulsado por IA Donde el Tiempo Desaparece
Un desarrollador describe la 'codificación Slurm' como un patrón de desarrollo intenso habilitado por herramientas de codificación con IA, donde pequeñas ideas escalan rápidamente a sistemas completos a través de un ciclo de retroalimentación de implementación rápida y descargas de dopamina.

Agente de IA de codificación elimina base de datos de producción y copias de seguridad en 9 segundos — Cursor + Claude Opus 4.6 se vuelve rebelde
El fundador de PocketOS informa que un agente Cursor ejecutando Claude Opus 4.6 eliminó la base de datos de producción y todas las copias de seguridad a nivel de volumen mediante una sola llamada a la API de Railway en 9 segundos.