Qwen 3.6 27B alcanza una velocidad 2.5 veces mayor con decodificación especulativa MTP en llama.cpp

✍️ OpenClawRadar📅 Publicado: 6 de mayo de 2026🔗 Source
Qwen 3.6 27B alcanza una velocidad 2.5 veces mayor con decodificación especulativa MTP en llama.cpp
Ad

Un usuario de Reddit ha compilado llama.cpp con un PR pendiente (#22673) que habilita la Predicción Multi-Token (MTP) para Qwen 3.6 27B. MTP utiliza las capas tensoriales integradas del modelo para decodificación especulativa, reclamando una aceleración de 2.5x — de ~11 tok/s a 28 tok/s en un Mac M2 Max 96GB.

Detalles Clave

  • Modelo: Qwen 3.6 27B (variante de arquitectura Qwen2.5-3.0)
  • Hardware probado: Mac M2 Max 96GB
  • Resultados: 28 tok/s con MTP (vs ~11 tok/s sin él)
  • Soporte de contexto: Hasta 262K tokens con caché KV turbo4 en Mac de 48GB
  • Cuantizaciones: GGUF preconvertidos subidos por el usuario en froggeric/Qwen3.6-27B-MTP-GGUF

Instrucciones de Compilación

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server
Ad

Comando del Servidor

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Tres optimizaciones combinadas:

  • --spec-type mtp --spec-draft-n-max 5: habilita la decodificación especulativa MTP (2.5x más rápida)
  • --cache-type-k turbo4 --cache-type-v turbo4: caché KV de 4.25 bits (un cuarto de memoria frente a 16 bits)
  • -c 262144: ventana de contexto de 262K (cabe en 48GB con turbo4)

Recomendaciones de Hardware

Se proporcionan tablas de cuantización y caché KV para Apple Silicon y NVIDIA GPU en la fuente para configuraciones con memoria limitada (por ejemplo, IQ2_M en Apple Silicon de 16GB con contexto de 48K). El soporte de visión (mmproj) está disponible en configuraciones de 32GB o más.

Correcciones Adicionales

El usuario también publicó 7 correcciones a la plantilla de chat jinja de Qwen que estaban rotas debido al formato específico de vLLM. Ahora son compatibles con llama.cpp y otras herramientas.

Nota: Los archivos GGUF existentes en Hugging Face no incluyen soporte MTP — requieren reconversión con el PR aplicado. El usuario advierte que las subidas iniciales están incompletas; verifique el estado del repositorio en Hugging Face.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Claudlytics: Panel Autohospedado para Rastrear el Uso de Tokens de Código y Costos de Claude
Herramientas

Claudlytics: Panel Autohospedado para Rastrear el Uso de Tokens de Código y Costos de Claude

Claudlytics es un servidor web Node.js que lee los archivos de sesión locales .jsonl de Claude Code para proporcionar un seguimiento en tiempo real del uso de tokens y costos. Se ejecuta localmente en 127.0.0.1 y se puede acceder a través de un túnel SSH para servidores remotos.

OpenClawRadar
Eqho: Aplicación Local de Voz a Texto para Sesiones de Código de Claude
Herramientas

Eqho: Aplicación Local de Voz a Texto para Sesiones de Código de Claude

Eqho es una aplicación gratuita y de código abierto de voz a texto que utiliza el modelo Whisper de OpenAI localmente para escribir entrada hablada en cualquier aplicación enfocada. Actualmente solo disponible para Windows y requiere configuración por línea de comandos.

OpenClawRadar
El Subagente Escéptico de Planes de Claude Code Identifica Brechas de Seguridad en Planes Generados
Herramientas

El Subagente Escéptico de Planes de Claude Code Identifica Brechas de Seguridad en Planes Generados

Un desarrollador descubrió el subagente escéptico de planes de Claude Code, que identifica lagunas y problemas en los planes de desarrollo generados por IA, detectando especialmente preocupaciones de seguridad que no eran evidentes inicialmente. El agente trabaja junto con el subagente sheriff de seguridad, previamente conocido, para mejorar la calidad de los planes.

OpenClawRadar
Sistema ACO: Pipeline de IA Multiagente desde Issue de GitHub hasta PR Fusionado
Herramientas

Sistema ACO: Pipeline de IA Multiagente desde Issue de GitHub hasta PR Fusionado

ACO System es un framework multiagente de código abierto en el que seis agentes de IA especializados ejecutan de forma autónoma todo el pipeline de desarrollo, desde un Issue de GitHub hasta un PR fusionado, con una puerta de entrada determinista que rechaza historias defectuosas antes de que lleguen a los desarrolladores.

OpenClawRadar