Como Executar Qwen3.6-35B no AMD R9700 com VS Code Copilot

Um usuário do Reddit relata ótimos resultados rodando o modelo GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL localmente usando llama.cpp com Vulkan em uma única GPU AMD R9700. A configuração serviu como substituto direto para o GitHub Copilot no VS Code, gerando um site de teste completo e um conjunto de testes Playwright com mínima intervenção.

Comando de inicialização do llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Parâmetros principais: janela de contexto de 256K, 99 camadas GPU para descarregamento total, flash attention ativado e configuração de amostragem retirada da página do Qwen3.6-35B-A3B no Hugging Face em "precise coding".

Integração com VS Code

O usuário configurou um modelo de chat personalizado em chatLanguageModels.json apontando para o servidor local do llama.cpp:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Você é um assistente de codificação preciso. Evite repetir planos. Execute tarefas diretamente. Não reafirme intenções várias vezes.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

O modelo respondeu corretamente a requisições de chamada de ferramenta, permitindo que atuasse como substituto do Copilot.

Teste no Mundo Real: Geração Full Stack

O usuário forneceu um prompt detalhado (originalmente do ChatGPT) pedindo ao modelo para construir um "Bike Shop Service Tracker" — um aplicativo React + TypeScript local-first usando localStorage. Os requisitos incluíam modelo de dados, dados de semente, filtragem, ordenação e validação de formulário. O modelo gerou o site inteiro completamente funcional na primeira execução.

Em seguida, pediu que gerasse um conjunto completo de testes Playwright. Apenas um teste exigiu correção manual — caso contrário, a suíte rodou sem erros. A conclusão do usuário: "Acho que terminei de ajustar e testar modelos (até o próximo grande lançamento) e posso voltar a programar agora."

Para Quem é

Desenvolvedores que executam LLMs localmente para assistência de codificação, especialmente aqueles com GPUs AMD (Vulkan) que desejam uma alternativa ao Copilot com qualidade comparável.

📖 Leia a fonte original: r/LocalLLaMA

Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700

Comando de inicialização do llama.cpp

Integração com VS Code

Teste no Mundo Real: Geração Full Stack

Para Quem é

👀 See Also

Pesquisa-web-offline: Uma Alternativa Local ao Google Search para Agentes de IA

CodeTalk: Ferramenta de código aberto adiciona reflexões faladas ao Claude Code CLI

Sistema ACO: Pipeline Multiagente de Código Aberto da Issue do GitHub ao PR Mesclado

O Plugin Claude-ETA Adiciona Cronometragem de Tarefas e Detecção de Loop de Reparo ao Claude Code