Optimización de Qwen 3.6 27B/35B en RTX 3090: Flags, Cuantización y Enrutamiento Automático

✍️ OpenClawRadar📅 Publicado: 5 de mayo de 2026🔗 Source

Un desarrollador que ejecuta modelos Qwen 3.6 localmente en una RTX 3090 (24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11, está encontrando problemas de rendimiento y fiabilidad. Está usando llama-server con banderas personalizadas y busca consejo sobre la elección de cuantización, rendimiento y enrutamiento automático de modelos.

Comandos y Cuantizaciones

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

Problemas Reportados

35B demasiado lento – incluso tareas iterativas simples se sienten inutilizables.
27B más rápido pero poco fiable – la salida de código se rompe; las tareas simples pueden tardar 20-30 minutos.
Cambio manual de modelo – hay que matar el servidor, pegar un nuevo comando y recargar el modelo.

Preguntas Específicas

¿Son las banderas subóptimas? (por ejemplo, tamaño de contexto, tamaño de lote, tipo de caché)
¿Qué cuantización/modelo ofrece el mejor equilibrio entre velocidad y precisión en código con 24GB VRAM?
¿Cómo cambiar automáticamente de modelo por solicitud, o mantener varios modelos activos y enrutar?

Contexto

El usuario ejecuta el agente Hermes en una Raspberry Pi 5 para scraping y automatización, y codificación local con OpenCode/QwenCode. Quiere una configuración que no requiera reinicios manuales del servidor.

📖 Read the full source: r/LocalLLaMA

👀 Ver también

Guías

Lista de Verificación Pre-Lanzamiento de OpenClaw para Seguridad y Confiabilidad

Un usuario de Reddit comparte una lista de verificación práctica de seis puntos para la configuración de OpenClaw antes de ponerlo en marcha, que cubre control de acceso, reglas de seguridad, gestión de memoria, pruebas de automatización, validación de entrega y manejo de fallos.

27 mar 2026, 21:45 UTC

OpenClawRadar

Guías

Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM

Un abogado que construye un servidor de IA local para trabajo legal comparte resultados de pruebas de vLLM en 10 GPUs Tesla V100 SXM2 de 32GB, detallando lo que funciona (FP16 sin cuantizar, bitsandbytes de 4 bits) y lo que no (GPTQ, AWQ, FlashAttention2) en la arquitectura Volta.

15 abr 2026, 21:45 UTC

OpenClawRadar

Guías

Patrones de Fallas de OpenClaw: 42 Incidentes Reales en 28 Días

Un desarrollador que ejecutaba OpenClaw diariamente documentó 42 fallos específicos en ocho categorías, incluyendo alucinaciones de IA, fallos de autenticación y automatizaciones que consumen más tiempo del que ahorran. La fuente proporciona ejemplos concretos como la expiración de tokens OAuth de Google a los 7 días y Opus 4.6 añadiendo metadatos no deseados a los archivos.

26 feb 2026, 03:45 UTC

OpenClawRadar

Guías

Flujo de Trabajo Práctico con Claude Code para Equipos de Desarrollo

Un usuario de Reddit comparte su presentación interna sobre las mejores prácticas de Claude Code, incluyendo selección de modelos, flujos de trabajo estructurados y técnicas específicas de prompts para mejorar la calidad de la salida.

3 abr 2026, 19:45 UTC

OpenClawRadar