Los Puntos de Referencia Muestran que los Modelos Destilados Igualan a los Modelos de Vanguardia en Tareas Estructuradas con un Costo 10 Veces Menor

Resultados de Referencia: Modelos Destilados vs. Modelos de Vanguardia
Los investigadores realizaron una comparación exhaustiva de modelos pequeños destilados frente a modelos LLM de vanguardia en 9 conjuntos de datos que cubren tareas de clasificación, llamadas a funciones, preguntas y respuestas, y preguntas y respuestas de libro abierto. Todos los modelos destilados son de la familia Qwen3 (0.6B a 8B), entrenados con tan solo 50 ejemplos utilizando modelos maestros de pesos abiertos sin salidas de API de vanguardia para el entrenamiento.
Hallazgos Clave de Rendimiento
- Los modelos destilados igualan o superan al mejor modelo de vanguardia de nivel medio (<$1/MTok entrada) en 6/9 tareas, empatando efectivamente en una séptima
- Text2SQL: Qwen3-4B destilado alcanza 98.0% vs Claude Haiku 98.7%, GPT-5 nano 96.0% a $3/M solicitudes vs $378 y $24 respectivamente
- Hogar Inteligente (llamada a funciones): Qwen3-0.6B puntúa 98.7% vs 92.0% de Gemini Flash
- HotpotQA: Los modelos destilados puntúan 92.0% vs 98.0% de Haiku - el razonamiento abierto con conocimiento del mundo sigue siendo territorio de vanguardia
- Tareas de clasificación (Banking77, E-commerce, TREC): Los modelos destilados están dentro de 0-1.5 puntos porcentuales de la mejor opción de vanguardia
Rendimiento de Inferencia
Los modelos se sirvieron a través de vLLM en una sola H100 con el siguiente rendimiento del modelo Text2SQL 4B:
- 222 RPS sostenidos
- p50: 390ms, p95: 640ms, p99: 870ms
- 7.6 GiB VRAM (BF16, sin cuantización)
- FP8 dio +15% de rendimiento, -44% de memoria, sin pérdida de precisión en experimentos breves
Metodología
- Mismos conjuntos de prueba, mismos prompts, mismos criterios de evaluación en todos los modelos
- Modelos de vanguardia ejecutados 3x por conjunto de datos (media ± desviación estándar reportada), destilados a temp=0
- Evaluación: coincidencia exacta para clasificación, equivalencia de llamada a herramienta (comparación JSON con normalización de parámetros predeterminada) para llamadas a funciones, Claude Sonnet 4.6 como LLM-como-juez para generación
- Costo: vanguardia = uso medido de tokens de API × precios publicados (Feb 2026). Destilado = H100 a $2.40/hr ÷ RPS sostenidos medidos
Recomendaciones Prácticas
- Destilar: tareas estructuradas, esquemas bien definidos, alto volumen, requisitos de soberanía de datos
- API de vanguardia: conocimiento amplio del mundo, generación libre, bajo volumen
- Mejor configuración: enrutar entre ambos
Recursos Disponibles
Todo el código, modelos, datos y scripts de evaluación son de código abierto en https://github.com/distil-labs/inference-efficiency-benchmarks/
Publicación de blog completa con gráficos y desgloses por conjunto de datos: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Seis Paralelismos Respaldados por la Investigación entre los Modos de Falla de los LLM y la Cognición del TDAH
Un desarrollador con TDAH identifica seis paralelismos entre los patrones de fallo de los LLM y la ciencia cognitiva del TDAH, respaldados por investigaciones independientes sobre procesamiento asociativo, confabulación, limitaciones de la memoria de trabajo, completado de patrones, dependencia de la estructura y continuidad del hilo.
El riesgo mundano: Por qué las mayores amenazas de la seguridad de la IA son aburridas, no dramáticas
Un ensayo argumenta que los fallos mundanos de la IA ya están causando daños a gran escala, los enfoques actuales de alineación dependen demasiado de entornos controlados, y la convergencia de capacidades hace que la exposición accidental al mundo abierto sea cada vez más plausible.

Google Chrome descarga silenciosamente el modelo Gemini Nano de 4GB sin consentimiento
Chrome descarga automáticamente un modelo Gemini Nano de 4GB (weights.bin) a los dispositivos de los usuarios sin consentimiento ni opción de exclusión, y lo vuelve a descargar si se elimina. Esto plantea preocupaciones legales (ePrivacy/GDPR) y ambientales a la escala de mil millones de dispositivos de Chrome.

Definir agentes de IA: La prueba de flujo de trabajo
Un debate en Reddit cuestiona si muchos productos de agentes de IA son esencialmente chatbots con una lista de tareas, proponiendo una prueba basada en su capacidad para completar flujos de trabajo a través de múltiples herramientas sin intervención manual.