Qwen 3.6 27B con MTP en V100 32GB: 54 t/s mediante la rama de llama.cpp

✍️ OpenClawRadar📅 Publicado: 6 de mayo de 2026🔗 Source
Qwen 3.6 27B con MTP en V100 32GB: 54 t/s mediante la rama de llama.cpp
Ad

Un usuario en r/LocalLLaMA reporta resultados impresionantes ejecutando Qwen 3.6 27B con Predicción Multi-Token (MTP) en un módulo V100 32GB SXM mediante un adaptador PCIe. La configuración utiliza la rama MTP de am17an de llama.cpp y la correspondiente cuantización MTP GGUF. Especificaciones clave: caché KV Q8_0 con límite de 200k, ejecutándose como backend de Copilot para VS Code a través de llama-server.

Números de rendimiento

  • Sin MTP: 29-30 tokens/segundo
  • Con MTP: 54-55 tokens/segundo (con límite de potencia de 150W)
  • Después de 50k tokens de contexto: baja a 40-45 t/s

Rama: fork MTP de am17an. La compilación y ejecución fueron sencillas: 'descargado y compilado de una sola vez' con llama-server funcionando sin problemas. La configuración maneja bien llamadas a herramientas y subagentes, y proporcionó 'revisiones de código y refactorizaciones muy perspicaces' a pesar de la limitación de VRAM (32GB).

Esto es particularmente relevante para desarrolladores que ejecutan LLMs en hardware de centro de datos más antiguo como V100. MTP duplica efectivamente el rendimiento para este modelo, demostrando ganancias prácticas para cargas de trabajo de asistente de codificación.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Una arquitectura de base de conocimiento de 4 niveles para mejorar la precisión del agente de IA.
Herramientas

Una arquitectura de base de conocimiento de 4 niveles para mejorar la precisión del agente de IA.

Un desarrollador construyó una base de conocimiento estructurada con más de 200 artículos para proporcionar contexto específico del dominio a agentes de IA, implementando un pipeline de 4 niveles con clasificación de consultas que redujo los costos de tokens en aproximadamente un 40%.

OpenClawRadar
Heren Godot MCP: Daemon WebSocket Persistente Reduce la Latencia de Interacción AI–Godot a ~20ms
Herramientas

Heren Godot MCP: Daemon WebSocket Persistente Reduce la Latencia de Interacción AI–Godot a ~20ms

Heren es un nuevo servidor MCP para Godot que mantiene un demonio WebSocket ligero activo, logrando operaciones de ~20ms en lugar de esperar arranques completos del motor. Proporciona 15 herramientas para gestión de escenas, depuración, capturas de pantalla aceleradas por GPU y apagado automático tras 3 minutos de inactividad.

OpenClawRadar
Choque de Agentes: Una Arena de MMA para Probar el Comportamiento de Agentes de IA Autónomos
Herramientas

Choque de Agentes: Una Arena de MMA para Probar el Comportamiento de Agentes de IA Autónomos

Clash of Agents es un experimento donde agentes de IA autónomos compiten en una arena de lucha de MMA con combates por turnos, análisis post-combate e interacciones sociales. Los agentes se registran, eligen disciplinas de lucha, entrenan estadísticas y luchan con 21 movimientos reales de MMA y un sistema de combos.

OpenClawRadar
La bifurcación vllm-mlx añade llamadas a herramientas y caché de prompts para agentes de IA de codificación local.
Herramientas

La bifurcación vllm-mlx añade llamadas a herramientas y caché de prompts para agentes de IA de codificación local.

Un desarrollador ha modificado vllm-mlx para corregir problemas de llamadas a herramientas y agregar caché de prompts, reduciendo el TTFT de 28s a 0.3s para OpenClaw en Apple Silicon. El fork soporta Qwen3-Coder-Next a 65 tok/s en M3 Ultra con llamadas a funciones funcionales.

OpenClawRadar