Qwen 3.5 35B ejecutándose en 8GB de VRAM con configuración de llama.cpp

✍️ OpenClawRadar📅 Publicado: 27 de marzo de 2026🔗 Source
Qwen 3.5 35B ejecutándose en 8GB de VRAM con configuración de llama.cpp
Ad

Configuración local de Qwen 3.5 35B con VRAM limitada

Un desarrollador en r/LocalLLaMA detalló su configuración para ejecutar el modelo Qwen 3.5 35B localmente en hardware con 8 GB de VRAM. Pasaron de usar Antigravity (con un plan Google AI Pro) a LLMs locales tras alcanzar los límites del servicio en la nube.

Especificaciones de hardware y modelo

La configuración utiliza un portátil Lenovo Legion con un CPU i9-14900HX (con núcleos E desactivados en la BIOS, 32 GB de RAM DDR5) y una GPU RTX 4060m con 8 GB de VRAM. El modelo específico es Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).

Rendimiento y configuración de llama.cpp

El desarrollador informa obtener aproximadamente 700 tokens por segundo para el procesamiento de prompts y 42 tokens por segundo para la generación de tokens con esta configuración. Proporcionaron sus argumentos de línea de comandos de llama.cpp tras las pruebas:

-ngl 99 ^
--n-cpu-moe 40 ^
-c 192000 ^
-t 12 ^
-tb 16 ^
-b 4096 ^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--mlock
Ad

Integración en el flujo de trabajo

Para su flujo de trabajo de agente, encontraron que Cline en VSCode es la alternativa más cercana a Antigravity. Usan kat-coder-pro para el modo Plan y qwen3.5 para el modo Act en esta configuración. El desarrollador busca comentarios sobre si esta configuración local es mejor que seguir con Google Gemini 3 Flash en Antigravity, señalando que priorizan un flujo de trabajo fluido sobre las preocupaciones de privacidad.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp
Herramientas

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp

Un desarrollador creó un servidor MCP de Mailchimp usando Claude Code, proporcionando 53 herramientas para campañas, audiencias, informes, automatizaciones y comercio electrónico con modos de seguridad integrados y configuración de solo lectura.

OpenClawRadar
MCP Server conecta Claude Code/Desktop a Apple Music — Listas de reproducción, Búsqueda, Análisis de perfil
Herramientas

MCP Server conecta Claude Code/Desktop a Apple Music — Listas de reproducción, Búsqueda, Análisis de perfil

Un nuevo servidor MCP permite que Claude Code y Claude Desktop controlen Apple Music: listar listas de reproducción, buscar canciones, crear listas de reproducción y analizar patrones de escucha mediante lenguaje natural.

OpenClawRadar
Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI
Herramientas

Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI

Una sugerencia de funcionalidad para Reddit propone que Claude Code detecte proactivamente la degradación del contexto y ofrezca una transferencia estructurada del ámbito de la tarea, generando un archivo de transferencia e iniciando una nueva sesión automáticamente.

OpenClawRadar
ShareMyClaudeMD: Herramienta Convierte Archivos Markdown Generados por Claude en Páginas Renderizadas Compartibles
Herramientas

ShareMyClaudeMD: Herramienta Convierte Archivos Markdown Generados por Claude en Páginas Renderizadas Compartibles

Un desarrollador creó sharemyclaudemd.com, una herramienta gratuita que convierte cualquier archivo Markdown en una página renderizada en vivo con una URL compartible y un código QR. La herramienta aborda la dificultad de compartir archivos Markdown generados por Claude, que a menudo requiere que los destinatarios los abran en un editor específico o los suban a GitHub solo para ver una vista renderizada.

OpenClawRadar