Qwen 3.6 27B alcanza una velocidad 2.5 veces mayor con decodificación especulativa MTP en llama.cpp

Un usuario de Reddit ha compilado llama.cpp con un PR pendiente (#22673) que habilita la Predicción Multi-Token (MTP) para Qwen 3.6 27B. MTP utiliza las capas tensoriales integradas del modelo para decodificación especulativa, reclamando una aceleración de 2.5x — de ~11 tok/s a 28 tok/s en un Mac M2 Max 96GB.
Detalles Clave
- Modelo: Qwen 3.6 27B (variante de arquitectura Qwen2.5-3.0)
- Hardware probado: Mac M2 Max 96GB
- Resultados: 28 tok/s con MTP (vs ~11 tok/s sin él)
- Soporte de contexto: Hasta 262K tokens con caché KV turbo4 en Mac de 48GB
- Cuantizaciones: GGUF preconvertidos subidos por el usuario en
froggeric/Qwen3.6-27B-MTP-GGUF
Instrucciones de Compilación
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-serverComando del Servidor
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--mmproj mmproj-Qwen3.6-27B-f16.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k turbo4 --cache-type-v turbo4 \
-c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081Tres optimizaciones combinadas:
--spec-type mtp --spec-draft-n-max 5: habilita la decodificación especulativa MTP (2.5x más rápida)--cache-type-k turbo4 --cache-type-v turbo4: caché KV de 4.25 bits (un cuarto de memoria frente a 16 bits)-c 262144: ventana de contexto de 262K (cabe en 48GB con turbo4)
Recomendaciones de Hardware
Se proporcionan tablas de cuantización y caché KV para Apple Silicon y NVIDIA GPU en la fuente para configuraciones con memoria limitada (por ejemplo, IQ2_M en Apple Silicon de 16GB con contexto de 48K). El soporte de visión (mmproj) está disponible en configuraciones de 32GB o más.
Correcciones Adicionales
El usuario también publicó 7 correcciones a la plantilla de chat jinja de Qwen que estaban rotas debido al formato específico de vLLM. Ahora son compatibles con llama.cpp y otras herramientas.
Nota: Los archivos GGUF existentes en Hugging Face no incluyen soporte MTP — requieren reconversión con el PR aplicado. El usuario advierte que las subidas iniciales están incompletas; verifique el estado del repositorio en Hugging Face.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

Kanban CLI: Un gestor de tareas local y orientado a agentes para la terminal
Kanban CLI es una herramienta de terminal basada en Rust que proporciona gestión estructurada de tareas con integración completa de git, diseñada para flujos de trabajo impulsados por agentes de IA.

Panel Lateral Persistente para Claude Code con Gestión Autónoma de Contenido
Un desarrollador creó un panel TUI que se ubica en un panel dividido de iTerm2 junto al terminal, con tres paneles fijos que Claude gestiona de forma autónoma para mostrar contenido relevante como código, diagramas y actualizaciones de estado.

Verificador de alucinaciones estructurales de código abierto para pipelines de agentes de IA
Una nueva herramienta de código abierto proporciona cuatro supresores para detectar fallos estructurales en las canalizaciones de agentes de IA, incluyendo la aplicación de fundamentación, la detección de inyección de prompts, la validación de JSON y la verificación de respuestas de herramientas. Disponible tanto como una API REST como un servidor MCP con un nivel gratuito de 500 solicitudes/mes.

Despliegue de OpenClaw en AWS: Un enfoque en la automatización
La herramienta de OpenClaw permite una implementación con un solo clic a AWS, simplificando las operaciones en la nube para los desarrolladores que utilizan agentes de codificación AI.