Qwen 3.5 35B ejecutándose en 8GB de VRAM con configuración de llama.cpp

Configuración local de Qwen 3.5 35B con VRAM limitada
Un desarrollador en r/LocalLLaMA detalló su configuración para ejecutar el modelo Qwen 3.5 35B localmente en hardware con 8 GB de VRAM. Pasaron de usar Antigravity (con un plan Google AI Pro) a LLMs locales tras alcanzar los límites del servicio en la nube.
Especificaciones de hardware y modelo
La configuración utiliza un portátil Lenovo Legion con un CPU i9-14900HX (con núcleos E desactivados en la BIOS, 32 GB de RAM DDR5) y una GPU RTX 4060m con 8 GB de VRAM. El modelo específico es Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).
Rendimiento y configuración de llama.cpp
El desarrollador informa obtener aproximadamente 700 tokens por segundo para el procesamiento de prompts y 42 tokens por segundo para la generación de tokens con esta configuración. Proporcionaron sus argumentos de línea de comandos de llama.cpp tras las pruebas:
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
Integración en el flujo de trabajo
Para su flujo de trabajo de agente, encontraron que Cline en VSCode es la alternativa más cercana a Antigravity. Usan kat-coder-pro para el modo Plan y qwen3.5 para el modo Act en esta configuración. El desarrollador busca comentarios sobre si esta configuración local es mejor que seguir con Google Gemini 3 Flash en Antigravity, señalando que priorizan un flujo de trabajo fluido sobre las preocupaciones de privacidad.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp
Un desarrollador creó un servidor MCP de Mailchimp usando Claude Code, proporcionando 53 herramientas para campañas, audiencias, informes, automatizaciones y comercio electrónico con modos de seguridad integrados y configuración de solo lectura.

MCP Server conecta Claude Code/Desktop a Apple Music — Listas de reproducción, Búsqueda, Análisis de perfil
Un nuevo servidor MCP permite que Claude Code y Claude Desktop controlen Apple Music: listar listas de reproducción, buscar canciones, crear listas de reproducción y analizar patrones de escucha mediante lenguaje natural.

Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI
Una sugerencia de funcionalidad para Reddit propone que Claude Code detecte proactivamente la degradación del contexto y ofrezca una transferencia estructurada del ámbito de la tarea, generando un archivo de transferencia e iniciando una nueva sesión automáticamente.

ShareMyClaudeMD: Herramienta Convierte Archivos Markdown Generados por Claude en Páginas Renderizadas Compartibles
Un desarrollador creó sharemyclaudemd.com, una herramienta gratuita que convierte cualquier archivo Markdown en una página renderizada en vivo con una URL compartible y un código QR. La herramienta aborda la dificultad de compartir archivos Markdown generados por Claude, que a menudo requiere que los destinatarios los abran en un editor específico o los suban a GitHub solo para ver una vista renderizada.