Configuración de Qwen3.5-27B Localmente: Comparación entre vLLM y llama.cpp

Rendimiento y Capacidades de Qwen3.5-27B
El modelo Qwen3.5-27B demuestra un rendimiento sólido en varios benchmarks según la fuente: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, puntuación general de inteligencia: 42.1 (mejor que el 91% de los modelos comparados), e índice de codificación: 34.9 (supera al 88% en capacidades de codificación). El modelo presenta una arquitectura densa con un contexto nativo de 262k que es extensible a más de 1M de tokens.
Comparación de Backends: llama.cpp vs vLLM
La fuente compara dos enfoques principales para el despliegue local:
Opción 1: llama.cpp
- Ventajas: Baja huella de memoria, configuración sencilla, admite caché q4 KV para un uso razonable de VRAM
- Desventajas: Problema importante con la caché KV que se borra aleatoriamente, lo que obliga a reprocesar el prompt completo a mitad de sesión. La decodificación especulativa mediante MTP no funciona. Error conocido sin soluciones sólidas aún.
Opción 2: vLLM
- Ventajas: Sesiones estables, sin borrados de KV, admite decodificación especulativa con MTP para generaciones más rápidas
- Desventajas: No admite caché q4 KV, por lo que la VRAM alcanza picos con contexto de 256k. El análisis de llamadas a herramientas es defectuoso para Qwen3.5 en v0.17.1, con correcciones en PRs abiertos de GitHub pero aún no fusionadas. Esto interrumpe flujos de codificación agentica con salidas JSON malformadas.
Configuración Recomendada de vLLM
La fuente proporciona recomendaciones de configuración específicas para ejecuciones estables y de alta velocidad utilizando el modelo de HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:
- Utilice el backend flashinfer cutlass para un rendimiento optimizado
- Establezca la ventana de contexto en 128k (equilibra VRAM y usabilidad; aumente a 256k si tiene el hardware)
- Limite la utilización de GPU a 0.82 para evitar fallos por falta de memoria
- Establezca max-num-seq en 2 (maneja una sola sesión bien sin sobrecargar)
- Habilite la decodificación especulativa MTP para mejoras de velocidad
- Parchee vLLM con las correcciones de análisis de llamadas a herramientas de Qwen de los PRs abiertos
- Utilice Claude code cli - el código abierto aún tiene problemas de análisis de llamadas a herramientas que no aparecen en Claude code después del parche
Resultados de Rendimiento
Según la fuente, el rendimiento varía según el hardware:
- En una RTX 5090 (32GB VRAM): ~50 TPS
- En una RTX Pro 6000 (96GB VRAM): 70 TPS con contexto completo de 256k
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Cómo ejecutar OpenClaw completamente local con Ollama
Una publicación de Reddit describe un proceso para ejecutar OpenClaw completamente de manera local sin APIs en la nube ni facturación por token, utilizando Ollama y LLMFit para evaluar modelos locales.

Recomendaciones de Modelos de Traducción Local para GPUs con 32 GB de VRAM
Un desarrollador comparte recomendaciones probadas para modelos de traducción local en una configuración de 32 GB de VRAM, destacando Unsloth Gemma3 27b Instruct UD Q6_K_XL para idiomas generales y Bartowski Utter Project EuroLLM 22B Instruct 2512 Q8_0 para idiomas europeos más coreano.

Usuarios de OpenClaw Docker: Fijen el commit 0c926a2c5 para corregir las extensiones de Discord y canales rotas.
Después de actualizar OpenClaw mediante Docker, las extensiones de canales como Discord, Signal y WhatsApp fallan con errores de importación de módulos. El problema se origina en el commit d9c285e93 y un segundo error específico de Docker. Fíjate en el commit 0c926a2c5 para una solución temporal estable.

Análisis de los Patrones de Ingeniería de Producción de Claude Code a partir del Código Fuente Inverso
Un desarrollador ha descompilado aproximadamente 500,000 líneas del código fuente TypeScript de Claude Code en un manual técnico de 19 capítulos que documenta patrones de ingeniería de producción que surgen bajo carga real, dinero real y adversarios reales.