Optimización de Qwen 3.6 27B/35B en RTX 3090: Flags, Cuantización y Enrutamiento Automático

Un desarrollador que ejecuta modelos Qwen 3.6 localmente en una RTX 3090 (24GB VRAM), Ryzen 5700X, 64GB RAM, Windows 11, está encontrando problemas de rendimiento y fiabilidad. Está usando llama-server con banderas personalizadas y busca consejo sobre la elección de cuantización, rendimiento y enrutamiento automático de modelos.
Comandos y Cuantizaciones
35B (UD Q4_K_M):
llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.027B (UD Q4_K_XL):
llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0Problemas Reportados
- 35B demasiado lento – incluso tareas iterativas simples se sienten inutilizables.
- 27B más rápido pero poco fiable – la salida de código se rompe; las tareas simples pueden tardar 20-30 minutos.
- Cambio manual de modelo – hay que matar el servidor, pegar un nuevo comando y recargar el modelo.
Preguntas Específicas
- ¿Son las banderas subóptimas? (por ejemplo, tamaño de contexto, tamaño de lote, tipo de caché)
- ¿Qué cuantización/modelo ofrece el mejor equilibrio entre velocidad y precisión en código con 24GB VRAM?
- ¿Cómo cambiar automáticamente de modelo por solicitud, o mantener varios modelos activos y enrutar?
Contexto
El usuario ejecuta el agente Hermes en una Raspberry Pi 5 para scraping y automatización, y codificación local con OpenCode/QwenCode. Quiere una configuración que no requiera reinicios manuales del servidor.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Lista de Recursos de OpenClaw Compilada a partir de Fuentes Comunitarias
Un repositorio de GitHub recopila recursos prácticos de OpenClaw que cubren configuración, despliegue, sistemas de memoria, seguridad, habilidades, compatibilidad de modelos y enlaces comunitarios para ayudar a los desarrolladores a evitar lagunas de información comunes.

Guía práctica de configuración y puesta en marcha del agente de IA autohospedado OpenClaw
OpenClaw es un agente de IA autoalojado que se integra con aplicaciones de mensajería y mantiene memoria persistente a través de un sistema basado en archivos. Las recomendaciones clave de configuración incluyen comenzar con la interfaz de terminal, conectar solo un canal de mensajería inicialmente y configurar correctamente el archivo SOUL.md para personalidad y reglas de seguridad.

Claude Code v2.1.36: Fast Mode ahora disponible para Opus 4.6
Anthropic lanza Claude Code v2.1.36 con soporte Fast Mode para el último modelo Opus 4.6.

Cinco Problemas Comunes de Configuración de OpenClaw que Inflan los Costos de la API
Una publicación de Reddit identifica cinco problemas de configuración en las configuraciones de OpenClaw que conducen a un consumo excesivo de créditos de API, incluido el uso de modelos costosos para tareas rutinarias, límites de presupuesto faltantes, puertas de enlace abiertas, memoria no administrada y habilidades no auditadas.