Los Puntos de Referencia Muestran que los Modelos Destilados Igualan a los Modelos de Vanguardia en Tareas Estructuradas con un Costo 10 Veces Menor

Resultados de Referencia: Modelos Destilados vs. Modelos de Vanguardia
Los investigadores realizaron una comparación exhaustiva de modelos pequeños destilados frente a modelos LLM de vanguardia en 9 conjuntos de datos que cubren tareas de clasificación, llamadas a funciones, preguntas y respuestas, y preguntas y respuestas de libro abierto. Todos los modelos destilados son de la familia Qwen3 (0.6B a 8B), entrenados con tan solo 50 ejemplos utilizando modelos maestros de pesos abiertos sin salidas de API de vanguardia para el entrenamiento.
Hallazgos Clave de Rendimiento
- Los modelos destilados igualan o superan al mejor modelo de vanguardia de nivel medio (<$1/MTok entrada) en 6/9 tareas, empatando efectivamente en una séptima
- Text2SQL: Qwen3-4B destilado alcanza 98.0% vs Claude Haiku 98.7%, GPT-5 nano 96.0% a $3/M solicitudes vs $378 y $24 respectivamente
- Hogar Inteligente (llamada a funciones): Qwen3-0.6B puntúa 98.7% vs 92.0% de Gemini Flash
- HotpotQA: Los modelos destilados puntúan 92.0% vs 98.0% de Haiku - el razonamiento abierto con conocimiento del mundo sigue siendo territorio de vanguardia
- Tareas de clasificación (Banking77, E-commerce, TREC): Los modelos destilados están dentro de 0-1.5 puntos porcentuales de la mejor opción de vanguardia
Rendimiento de Inferencia
Los modelos se sirvieron a través de vLLM en una sola H100 con el siguiente rendimiento del modelo Text2SQL 4B:
- 222 RPS sostenidos
- p50: 390ms, p95: 640ms, p99: 870ms
- 7.6 GiB VRAM (BF16, sin cuantización)
- FP8 dio +15% de rendimiento, -44% de memoria, sin pérdida de precisión en experimentos breves
Metodología
- Mismos conjuntos de prueba, mismos prompts, mismos criterios de evaluación en todos los modelos
- Modelos de vanguardia ejecutados 3x por conjunto de datos (media ± desviación estándar reportada), destilados a temp=0
- Evaluación: coincidencia exacta para clasificación, equivalencia de llamada a herramienta (comparación JSON con normalización de parámetros predeterminada) para llamadas a funciones, Claude Sonnet 4.6 como LLM-como-juez para generación
- Costo: vanguardia = uso medido de tokens de API × precios publicados (Feb 2026). Destilado = H100 a $2.40/hr ÷ RPS sostenidos medidos
Recomendaciones Prácticas
- Destilar: tareas estructuradas, esquemas bien definidos, alto volumen, requisitos de soberanía de datos
- API de vanguardia: conocimiento amplio del mundo, generación libre, bajo volumen
- Mejor configuración: enrutar entre ambos
Recursos Disponibles
Todo el código, modelos, datos y scripts de evaluación son de código abierto en https://github.com/distil-labs/inference-efficiency-benchmarks/
Publicación de blog completa con gráficos y desgloses por conjunto de datos: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Ver también

GitHub Copilot se traslada a facturación basada en uso por consumo de tokens, reemplazando las solicitudes premium el 1 de junio de 2026
GitHub Copilot pasa de unidades de solicitud premium a GitHub AI Credits basados en tokens, sin cambios en los precios de los planes. Todos los planes de pago incluyen créditos mensuales equivalentes al costo de la suscripción; el uso adicional se factura según las tarifas de API.

Actualización de OpenClaw .23 Causando Problemas en Agentes y Pérdida de Datos
La actualización OpenClaw .23 está provocando que los agentes se vuelvan irresponsivos, fallen en la ejecución de tareas y pierdan la conexión con las extensiones del navegador. Ejecutar el comando de reparación puede eliminar configuraciones JSON completas, requiriendo copias de seguridad del sistema para la recuperación.
El Puntero de IA de Google DeepMind: Reimaginando el Ratón para las Interacciones con Gemini
Google DeepMind presenta un puntero de mouse con inteligencia artificial que usa Gemini para entender el contexto, permitiendo comandos como señalar una imagen y decir 'Muéstrame las indicaciones', integrado en Chrome y Googlebook.

Claude Cowork unifica los comandos de barra y las habilidades bajo un único concepto.
Claude Cowork ha unificado los comandos de barra diagonal y las habilidades bajo un único concepto llamado 'habilidades', eliminando los encabezados separados en el menú /. Los comandos heredados continúan funcionando como antes.