Modelos Destilados vs Vanguardia: 10x Menos Costo en 6 Tareas

Resultados de Referencia: Modelos Destilados vs. Modelos de Vanguardia

Los investigadores realizaron una comparación exhaustiva de modelos pequeños destilados frente a modelos LLM de vanguardia en 9 conjuntos de datos que cubren tareas de clasificación, llamadas a funciones, preguntas y respuestas, y preguntas y respuestas de libro abierto. Todos los modelos destilados son de la familia Qwen3 (0.6B a 8B), entrenados con tan solo 50 ejemplos utilizando modelos maestros de pesos abiertos sin salidas de API de vanguardia para el entrenamiento.

Hallazgos Clave de Rendimiento

Los modelos destilados igualan o superan al mejor modelo de vanguardia de nivel medio (<$1/MTok entrada) en 6/9 tareas, empatando efectivamente en una séptima
Text2SQL: Qwen3-4B destilado alcanza 98.0% vs Claude Haiku 98.7%, GPT-5 nano 96.0% a $3/M solicitudes vs $378 y $24 respectivamente
Hogar Inteligente (llamada a funciones): Qwen3-0.6B puntúa 98.7% vs 92.0% de Gemini Flash
HotpotQA: Los modelos destilados puntúan 92.0% vs 98.0% de Haiku - el razonamiento abierto con conocimiento del mundo sigue siendo territorio de vanguardia
Tareas de clasificación (Banking77, E-commerce, TREC): Los modelos destilados están dentro de 0-1.5 puntos porcentuales de la mejor opción de vanguardia

Rendimiento de Inferencia

Los modelos se sirvieron a través de vLLM en una sola H100 con el siguiente rendimiento del modelo Text2SQL 4B:

222 RPS sostenidos
p50: 390ms, p95: 640ms, p99: 870ms
7.6 GiB VRAM (BF16, sin cuantización)
FP8 dio +15% de rendimiento, -44% de memoria, sin pérdida de precisión en experimentos breves

Metodología

Mismos conjuntos de prueba, mismos prompts, mismos criterios de evaluación en todos los modelos
Modelos de vanguardia ejecutados 3x por conjunto de datos (media ± desviación estándar reportada), destilados a temp=0
Evaluación: coincidencia exacta para clasificación, equivalencia de llamada a herramienta (comparación JSON con normalización de parámetros predeterminada) para llamadas a funciones, Claude Sonnet 4.6 como LLM-como-juez para generación
Costo: vanguardia = uso medido de tokens de API × precios publicados (Feb 2026). Destilado = H100 a $2.40/hr ÷ RPS sostenidos medidos

Recomendaciones Prácticas

Destilar: tareas estructuradas, esquemas bien definidos, alto volumen, requisitos de soberanía de datos
API de vanguardia: conocimiento amplio del mundo, generación libre, bajo volumen
Mejor configuración: enrutar entre ambos

Recursos Disponibles

Todo el código, modelos, datos y scripts de evaluación son de código abierto en https://github.com/distil-labs/inference-efficiency-benchmarks/

Publicación de blog completa con gráficos y desgloses por conjunto de datos: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Los Puntos de Referencia Muestran que los Modelos Destilados Igualan a los Modelos de Vanguardia en Tareas Estructuradas con un Costo 10 Veces Menor

Resultados de Referencia: Modelos Destilados vs. Modelos de Vanguardia

Hallazgos Clave de Rendimiento

Rendimiento de Inferencia

Metodología

Recomendaciones Prácticas

Recursos Disponibles

👀 Ver también

GitHub Copilot se traslada a facturación basada en uso por consumo de tokens, reemplazando las solicitudes premium el 1 de junio de 2026

Actualización de OpenClaw .23 Causando Problemas en Agentes y Pérdida de Datos

El Puntero de IA de Google DeepMind: Reimaginando el Ratón para las Interacciones con Gemini

Claude Cowork unifica los comandos de barra y las habilidades bajo un único concepto.