Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700

Um usuário do Reddit relata ótimos resultados rodando o modelo GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL localmente usando llama.cpp com Vulkan em uma única GPU AMD R9700. A configuração serviu como substituto direto para o GitHub Copilot no VS Code, gerando um site de teste completo e um conjunto de testes Playwright com mínima intervenção.
Comando de inicialização do llama.cpp
/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
--ctx-size 262144 --threads 8 --threads-batch 8 \
--gpu-layers 99 --parallel 1 --flash-attn on \
--batch-size 2048 --ubatch-size 1024 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--cache-ram 12000 --ctx-checkpoints 50 \
--mmap --no-mmproj --kv-unified \
--reasoning off --reasoning-budget 0 --jinja \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
--repeat-penalty 1.0 --presence-penalty 0.0
Parâmetros principais: janela de contexto de 256K, 99 camadas GPU para descarregamento total, flash attention ativado e configuração de amostragem retirada da página do Qwen3.6-35B-A3B no Hugging Face em "precise coding".
Integração com VS Code
O usuário configurou um modelo de chat personalizado em chatLanguageModels.json apontando para o servidor local do llama.cpp:
{
"name": "Sean Llama.cpp",
"vendor": "customoai",
"apiKey": "${input:chat.lm.secret.3c0c0f21}",
"models": [
{
"id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
"name": "Qwen3.6-35B",
"url": "https://llm.home.arpa/v1/chat/completions",
"toolCalling": true,
"vision": false,
"maxInputTokens": 180000,
"maxOutputTokens": 10000,
"family": "Qwen3",
"inputTokenCost": 0.0001,
"outputTokenCost": 0.0001,
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"repeat_penalty": 1,
"presence_penalty": 0,
"frequency_penalty": 0,
"systemMessage": "Você é um assistente de codificação preciso. Evite repetir planos. Execute tarefas diretamente. Não reafirme intenções várias vezes.",
"timeout": 600000,
"retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
}
]
}
O modelo respondeu corretamente a requisições de chamada de ferramenta, permitindo que atuasse como substituto do Copilot.
Teste no Mundo Real: Geração Full Stack
O usuário forneceu um prompt detalhado (originalmente do ChatGPT) pedindo ao modelo para construir um "Bike Shop Service Tracker" — um aplicativo React + TypeScript local-first usando localStorage. Os requisitos incluíam modelo de dados, dados de semente, filtragem, ordenação e validação de formulário. O modelo gerou o site inteiro completamente funcional na primeira execução.
Em seguida, pediu que gerasse um conjunto completo de testes Playwright. Apenas um teste exigiu correção manual — caso contrário, a suíte rodou sem erros. A conclusão do usuário: "Acho que terminei de ajustar e testar modelos (até o próximo grande lançamento) e posso voltar a programar agora."
Para Quem é
Desenvolvedores que executam LLMs localmente para assistência de codificação, especialmente aqueles com GPUs AMD (Vulkan) que desejam uma alternativa ao Copilot com qualidade comparável.
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

OpenClaw Integra Recursos do Vazamento de Código do Claude
Um usuário do OpenClaw fez seu bot analisar o código vazado do Claude (recriação em Rust por Instructkr) e portou seletivamente padrões arquiteturais específicos para sua configuração do OpenClaw. A integração foca em melhorias práticas como continuidade automática na inicialização, compactação de conversas e uma estrutura de ganchos pré-ferramenta/pós-ferramenta.

Conselheiro de IA Persistente com Memória entre Plataformas: Rastreia Histórico de Decisões por 3 Meses
Um usuário do Reddit criou um consultor de IA persistente que lembra de todas as decisões de produto no Claude Code, Cursor e uma interface web, detectando contradições e melhorando ao longo de meses.

Sistema Operacional de Agentes de Código Aberto: Sistema operacional baseado em Rust para agentes de IA com sandboxing WASM e recurso Hands
Um sistema operacional de código aberto para agentes de IA foi lançado com 137 mil linhas de código Rust sob licença MIT. O sistema executa agentes em sandboxes WASM com 16 camadas de segurança e introduz 'Mãos' para operação autônoma e programada de agentes.

Pesquisa Aura: Ferramenta local compila documentos em wiki navegável por IA com memória persistente
Aura Research é uma ferramenta de código aberto que processa documentos brutos (PDFs, artigos, notas, código, 60+ formatos) em um wiki estruturado em markdown com artigos vinculados, páginas de conceitos e um índice mestre. Ele compacta tudo em um arquivo .aura otimizado para recuperação RAG e funciona 100% localmente, sem que nenhum dado saia da sua máquina.