Qwen 3.6 27B MTP en V100 32GB: 54 t/s con llama.cpp

Un usuario en r/LocalLLaMA reporta resultados impresionantes ejecutando Qwen 3.6 27B con Predicción Multi-Token (MTP) en un módulo V100 32GB SXM mediante un adaptador PCIe. La configuración utiliza la rama MTP de am17an de llama.cpp y la correspondiente cuantización MTP GGUF. Especificaciones clave: caché KV Q8_0 con límite de 200k, ejecutándose como backend de Copilot para VS Code a través de llama-server.

Números de rendimiento

Sin MTP: 29-30 tokens/segundo
Con MTP: 54-55 tokens/segundo (con límite de potencia de 150W)
Después de 50k tokens de contexto: baja a 40-45 t/s

Rama: fork MTP de am17an. La compilación y ejecución fueron sencillas: 'descargado y compilado de una sola vez' con llama-server funcionando sin problemas. La configuración maneja bien llamadas a herramientas y subagentes, y proporcionó 'revisiones de código y refactorizaciones muy perspicaces' a pesar de la limitación de VRAM (32GB).

Esto es particularmente relevante para desarrolladores que ejecutan LLMs en hardware de centro de datos más antiguo como V100. MTP duplica efectivamente el rendimiento para este modelo, demostrando ganancias prácticas para cargas de trabajo de asistente de codificación.

📖 Lea la fuente completa: r/LocalLLaMA

Qwen 3.6 27B con MTP en V100 32GB: 54 t/s mediante la rama de llama.cpp

Números de rendimiento

👀 Ver también

Una arquitectura de base de conocimiento de 4 niveles para mejorar la precisión del agente de IA.

Heren Godot MCP: Daemon WebSocket Persistente Reduce la Latencia de Interacción AI–Godot a ~20ms

Choque de Agentes: Una Arena de MMA para Probar el Comportamiento de Agentes de IA Autónomos

La bifurcación vllm-mlx añade llamadas a herramientas y caché de prompts para agentes de IA de codificación local.