Qwen3.6 35B MoE en RTX 5080: 56 tok/s a 128k, MTP perjudica

El commit b9190 de llama.cpp mainline fusionó MTP (Predicción Multi-Token). Los benchmarks en una RTX 5080 16GB con Qwen3.6 35B MoE en contexto de 128k revelan un hallazgo claro: MTP perjudica el rendimiento cuando el modelo no cabe completamente en la GPU.

La Mejor Configuración (Sin MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 en contexto de 131k produce:

56 tok/s de generación
1.584 tok/s de procesamiento de prompt en contexto de 128k

No se necesitan banderas de MTP.

Por Qué MTP Ralentiza 35B MoE en 16GB

Tres configuraciones probadas con longitudes de contexto de agente de codificación:

27B IQ3+MTP: 12,45 GB, completamente en GPU — promedio 73 tok/s (MTP ayuda)
35B Q4_K_XL+MTP: ~22 GB, descarga parcial — promedio 74 tok/s (MTP perjudica)
35B Q8_0+MTP: ~36 GB, descarga pesada — promedio 46 tok/s

Sin MTP, el 35B Q4_K_XL alcanza 97 tok/s con --fit-target 0 (15.815 MiB VRAM) y 86 tok/s con --fit-target 1536 (14.269 MiB). Con MTP habilitado en --fit-target 1536, la velocidad baja a 74 tok/s (14.623 MiB) — una desaceleración del 23%.

La causa raíz: el búfer de cómputo de MTP reserva ~1,5 GB (--fit-target 1536), empujando ~3 capas expertas de MoE más de la GPU a la CPU. Dado que la inferencia de MoE está limitada por las capas expertas en CPU, la tasa de aceptación de tokens del 79% de MTP no puede compensar la velocidad más lenta por paso.

Para el modelo de 27B (cabe completamente en GPU), --fit-target 0 funciona con o sin MTP, por lo que no hay penalización de VRAM — MTP aumenta la velocidad de ~56 a 73 tok/s.

Regla General

MTP ayuda cuando tu modelo cabe en la GPU. Perjudica cuando el búfer de cómputo de MTP obliga a más capas a la CPU. En tarjetas de 16GB con 35B MoE, omite MTP.

Sistema de prueba completo: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (mainline). Banderas comunes de MTP: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Leer la fuente completa: r/LocalLLaMA

RTX 5080 16GB: Qwen3.6 35B MoE con contexto de 128k — 56 tok/s, y por qué MTP no ayuda

La Mejor Configuración (Sin MTP)

Por Qué MTP Ralentiza 35B MoE en 16GB

Regla General

👀 Ver también

Actualizaciones de Claude Code Engineer: Preguntas al Usuario en Markdown, Hooks HTTP, Nuevas Habilidades

Desarrollador Busca Consejos de Arquitectura para Servir Modelos Embed, Rerank y Zero-Shot en 8GB de VRAM

Decaimiento de Restricciones: Por qué los Agentes LLM Fallan en Código de Backend Estructurado

Anthropic traslada la automatización en segundo plano de Claude Code a un bucket de créditos SDK separado, interrumpiendo los flujos de trabajo de agentes