RTX 5080 16GB: Qwen3.6 35B MoE con contexto de 128k — 56 tok/s, y por qué MTP no ayuda

El commit b9190 de llama.cpp mainline fusionó MTP (Predicción Multi-Token). Los benchmarks en una RTX 5080 16GB con Qwen3.6 35B MoE en contexto de 128k revelan un hallazgo claro: MTP perjudica el rendimiento cuando el modelo no cabe completamente en la GPU.
La Mejor Configuración (Sin MTP)
Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 en contexto de 131k produce:
- 56 tok/s de generación
- 1.584 tok/s de procesamiento de prompt en contexto de 128k
No se necesitan banderas de MTP.
Por Qué MTP Ralentiza 35B MoE en 16GB
Tres configuraciones probadas con longitudes de contexto de agente de codificación:
- 27B IQ3+MTP: 12,45 GB, completamente en GPU — promedio 73 tok/s (MTP ayuda)
- 35B Q4_K_XL+MTP: ~22 GB, descarga parcial — promedio 74 tok/s (MTP perjudica)
- 35B Q8_0+MTP: ~36 GB, descarga pesada — promedio 46 tok/s
Sin MTP, el 35B Q4_K_XL alcanza 97 tok/s con --fit-target 0 (15.815 MiB VRAM) y 86 tok/s con --fit-target 1536 (14.269 MiB). Con MTP habilitado en --fit-target 1536, la velocidad baja a 74 tok/s (14.623 MiB) — una desaceleración del 23%.
La causa raíz: el búfer de cómputo de MTP reserva ~1,5 GB (--fit-target 1536), empujando ~3 capas expertas de MoE más de la GPU a la CPU. Dado que la inferencia de MoE está limitada por las capas expertas en CPU, la tasa de aceptación de tokens del 79% de MTP no puede compensar la velocidad más lenta por paso.
Para el modelo de 27B (cabe completamente en GPU), --fit-target 0 funciona con o sin MTP, por lo que no hay penalización de VRAM — MTP aumenta la velocidad de ~56 a 73 tok/s.
Regla General
MTP ayuda cuando tu modelo cabe en la GPU. Perjudica cuando el búfer de cómputo de MTP obliga a más capas a la CPU. En tarjetas de 16GB con 35B MoE, omite MTP.
Sistema de prueba completo: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (mainline). Banderas comunes de MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Usuario de Reddit compara a Claude Sonnet 4.6 y GPT-5 en 10 tareas de blogging.
Un usuario de Reddit probó Claude Sonnet 4.6 contra GPT-5 utilizando las mismas indicaciones para 10 tareas comunes de blogging, encontrando que la diferencia en el tiempo de edición fue la métrica más útil.

La revisión de código de GitHub Copilot consumirá minutos de Actions a partir del 1 de junio de 2026
A partir del 1 de junio de 2026, las revisiones de código de GitHub Copilot en repositorios privados consumirán minutos de GitHub Actions además de Créditos de IA. Los repositorios públicos permanecen gratuitos.

La filtración del código fuente de la CLI de Claude revela funciones ocultas y banderas internas.
El análisis del código fuente TypeScript filtrado de Claude Code CLI revela 35 banderas de características en tiempo de compilación, incluyendo mascotas de IA BUDDY, memoria persistente KAIROS, planificación remota ULTRAPLAN y Modo Coordinador. También se encontraron más de 120 variables de entorno no documentadas y 26 comandos internos con barra.

ThermoQA: Punto de Referencia Abierto para Ingeniería Termodinámica Evalúa Modelos de Lenguaje en 293 Problemas de Cálculo
ThermoQA es un punto de referencia abierto con 293 problemas de termodinámica de ingeniería en tres niveles, que evalúa a los LLM en cálculos numéricos exactos. Claude Opus 4.6 lidera con un 94.1% de puntuación compuesta, mientras que DeepSeek-R1 muestra la mayor variabilidad entre ejecuciones en ±2.5%.