Executando Qwen 3.5 35B com 8GB VRAM: Configuração llama.cpp

Configuração Local do Qwen 3.5 35B com VRAM Limitada

Um desenvolvedor no r/LocalLLaMA detalhou sua configuração para executar o modelo Qwen 3.5 35B localmente em hardware com 8GB de VRAM. Eles migraram do uso do Antigravity (com um plano Google AI Pro) para LLMs locais após atingir limites com o serviço em nuvem.

Especificações de Hardware e Modelo

A configuração usa um laptop Lenovo Legion com CPU i9-14900HX (com núcleos E desativados na BIOS, 32GB de RAM DDR5) e uma GPU RTX 4060m com 8GB de VRAM. O modelo específico é Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).

Desempenho e Configuração do llama.cpp

O desenvolvedor relata obter aproximadamente 700 tokens por segundo no processamento de prompts e 42 tokens por segundo na geração de tokens com esta configuração. Eles forneceram seus argumentos de linha de comando do llama.cpp após testes:

-ngl 99 ^
--n-cpu-moe 40 ^
-c 192000 ^
-t 12 ^
-tb 16 ^
-b 4096 ^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--mlock

Integração no Fluxo de Trabalho

Para seu fluxo de trabalho com agentes, eles consideraram o Cline no VSCode como a alternativa mais próxima ao Antigravity. Eles usam kat-coder-pro para o modo Plan e qwen3.5 para o modo Act nesta configuração. O desenvolvedor está buscando feedback sobre se esta configuração local é melhor do que continuar com o Google Gemini 3 Flash no Antigravity, observando que priorizam um fluxo de trabalho suave em vez de preocupações com privacidade.

📖 Read the full source: r/LocalLLaMA