Tasa de Aceptación MTP: Umbral 50% en Decodificación Especulativa

Un usuario de Reddit probó MTP (Predicción Multi-Token) usando mlx-vlm en Gemma-4 (26B, 4 bits) y descubrió que el rendimiento depende completamente de la tasa de aceptación de tokens borradores. Las mediciones en un M4 Max Studio muestran umbrales concretos.

Resultados de carga de trabajo

Generación de código: 75 tok/s → 114.8 tok/s (1.53× más rápido) — tasa de aceptación: 66% de los slots
Prosa extensa: 75 tok/s → 71.1 tok/s (0.95×, esencialmente sin cambio) — tasa de aceptación: 31% de los slots
Salida JSON: 51.3 tok/s → 25.6 tok/s (0.50× más lento) — tasa de aceptación: 8% de los slots

El umbral parece estar alrededor del ~50% de aceptación. Por debajo, la sobrecarga de la decodificación especulativa supera las ganancias.

Detalles de la prueba: el código fue "escribe algunas funciones de Python para hacer X"; la prosa extensa fue "escribe un ensayo de 800 palabras sobre el papel moneda en la dinastía Tang"; la salida JSON implicó agrupar elementos por similitud en una salida estructurada.

Consejo adicional: El usuario señala que Gemma sigue instrucciones de estructura JSON decentemente, pero habilitar la salida estructurada (json_schema) añade ~20% de sobrecarga. Recomienda aceptar JSON ligeramente imperfecto y corregirlo en tiempo de ejecución. mlx-vlm no soporta json_schema para decodificación especulativa de todos modos.

Conclusión: MTP es excelente para codificación local, pero puede degradar el rendimiento en tareas estructuradas o de prosa con bajas tasas de aceptación.

📖 Leer la fuente completa: r/LocalLLaMA

Tasa de Aceptación de MTP: El Umbral del 50% Determina el Beneficio de la Decodificación Especulativa

Resultados de carga de trabajo

👀 Ver también

La estructura de indicaciones que corrigió los resúmenes de Claude AI de informes PDF extensos

Enrutamiento de modelos reduce costos de API en 85% frente a suscripción Claude Max – Análisis de un desarrollador

Los Agentes de Código Claude No Leen Automáticamente la Documentación del Proyecto

Plugin OpenClaw Minimalismo: Las Herramientas Principales Manejan el 95% de las Tareas