Qwen 3.5 35B em execução com 8 GB de VRAM usando a configuração llama.cpp

Configuração Local do Qwen 3.5 35B com VRAM Limitada
Um desenvolvedor no r/LocalLLaMA detalhou sua configuração para executar o modelo Qwen 3.5 35B localmente em hardware com 8GB de VRAM. Eles migraram do uso do Antigravity (com um plano Google AI Pro) para LLMs locais após atingir limites com o serviço em nuvem.
Especificações de Hardware e Modelo
A configuração usa um laptop Lenovo Legion com CPU i9-14900HX (com núcleos E desativados na BIOS, 32GB de RAM DDR5) e uma GPU RTX 4060m com 8GB de VRAM. O modelo específico é Qwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF).
Desempenho e Configuração do llama.cpp
O desenvolvedor relata obter aproximadamente 700 tokens por segundo no processamento de prompts e 42 tokens por segundo na geração de tokens com esta configuração. Eles forneceram seus argumentos de linha de comando do llama.cpp após testes:
-ngl 99 ^ --n-cpu-moe 40 ^ -c 192000 ^ -t 12 ^ -tb 16 ^ -b 4096 ^ --ubatch-size 2048 ^ --flash-attn on ^ --cache-type-k q8_0 ^ --cache-type-v q8_0 ^ --mlock
Integração no Fluxo de Trabalho
Para seu fluxo de trabalho com agentes, eles consideraram o Cline no VSCode como a alternativa mais próxima ao Antigravity. Eles usam kat-coder-pro para o modo Plan e qwen3.5 para o modo Act nesta configuração. O desenvolvedor está buscando feedback sobre se esta configuração local é melhor do que continuar com o Google Gemini 3 Flash no Antigravity, observando que priorizam um fluxo de trabalho suave em vez de preocupações com privacidade.
📖 Read the full source: r/LocalLLaMA
👀 See Also

claude-sessions: Interface de Terminal para Navegar em Transcrições de Código do Claude
claude-sessions é uma ferramenta de interface de terminal de código aberto que examina arquivos de transcrição locais do Claude Code, permitindo que desenvolvedores naveguem, pesquisem e retomem sessões anteriores. Construído com o próprio Claude Code, apresenta navegação WASD, pesquisa por palavras-chave e retomada de sessão com um clique.

Cinco Extensões Gratuitas para Claude Desktop Lançadas: Inspector Lite, Graph Lite, Bible Code, Word Graph e Fun Pack
Um desenvolvedor disponibilizou como código aberto cinco extensões locais para o Claude Desktop: Inspector Lite para busca semântica de código, Graph Lite para um grafo de conhecimento pessoal, Fun Pack para recursos de entretenimento, Word Graph para estudo da Bíblia e Bible Code para detecção de padrões. Todas rodam localmente sem dependências externas ou chaves de API adicionais.

Plugin OpenClaw Memos Resolve Problemas de Transferência de Memória em Agentes de Codificação de IA
Um usuário do Reddit compartilha como o vazamento do código do Claude destacou problemas com a transferência de memória em agentes de IA de codificação, onde transcrições inchadas causam problemas durante a troca de modelos. Eles implementaram o plugin memos no OpenClaw com uma estratégia de recall seletivo para comprimir o trabalho recente e descartar chamadas de ferramentas obsoletas.

Klaw.sh: Orquestração no Estilo Kubernetes para Agentes de IA
Klaw.sh oferece uma solução de orquestração para implantação de agentes de IA, modelada no Kubernetes. Ele simplifica o gerenciamento com clusters, namespaces e canais, alcançando redução de memória ao reescrever de Node.js para Go.