Comparativa vLLM vs llama.cpp para Qwen3.5-27B Local

Rendimiento y Capacidades de Qwen3.5-27B

El modelo Qwen3.5-27B demuestra un rendimiento sólido en varios benchmarks según la fuente: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, puntuación general de inteligencia: 42.1 (mejor que el 91% de los modelos comparados), e índice de codificación: 34.9 (supera al 88% en capacidades de codificación). El modelo presenta una arquitectura densa con un contexto nativo de 262k que es extensible a más de 1M de tokens.

Comparación de Backends: llama.cpp vs vLLM

La fuente compara dos enfoques principales para el despliegue local:

Opción 1: llama.cpp

Ventajas: Baja huella de memoria, configuración sencilla, admite caché q4 KV para un uso razonable de VRAM
Desventajas: Problema importante con la caché KV que se borra aleatoriamente, lo que obliga a reprocesar el prompt completo a mitad de sesión. La decodificación especulativa mediante MTP no funciona. Error conocido sin soluciones sólidas aún.

Opción 2: vLLM

Ventajas: Sesiones estables, sin borrados de KV, admite decodificación especulativa con MTP para generaciones más rápidas
Desventajas: No admite caché q4 KV, por lo que la VRAM alcanza picos con contexto de 256k. El análisis de llamadas a herramientas es defectuoso para Qwen3.5 en v0.17.1, con correcciones en PRs abiertos de GitHub pero aún no fusionadas. Esto interrumpe flujos de codificación agentica con salidas JSON malformadas.

Configuración Recomendada de vLLM

La fuente proporciona recomendaciones de configuración específicas para ejecuciones estables y de alta velocidad utilizando el modelo de HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:

Utilice el backend flashinfer cutlass para un rendimiento optimizado
Establezca la ventana de contexto en 128k (equilibra VRAM y usabilidad; aumente a 256k si tiene el hardware)
Limite la utilización de GPU a 0.82 para evitar fallos por falta de memoria
Establezca max-num-seq en 2 (maneja una sola sesión bien sin sobrecargar)
Habilite la decodificación especulativa MTP para mejoras de velocidad
Parchee vLLM con las correcciones de análisis de llamadas a herramientas de Qwen de los PRs abiertos
Utilice Claude code cli - el código abierto aún tiene problemas de análisis de llamadas a herramientas que no aparecen en Claude code después del parche