Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700

✍️ OpenClawRadar📅 Publicado: May 7, 2026🔗 Source
Executando Qwen3.6-35B-A3B-UD-Q5_K_XL localmente com VS Code Copilot no AMD R9700
Ad

Um usuário do Reddit relata ótimos resultados rodando o modelo GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL localmente usando llama.cpp com Vulkan em uma única GPU AMD R9700. A configuração serviu como substituto direto para o GitHub Copilot no VS Code, gerando um site de teste completo e um conjunto de testes Playwright com mínima intervenção.

Comando de inicialização do llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Parâmetros principais: janela de contexto de 256K, 99 camadas GPU para descarregamento total, flash attention ativado e configuração de amostragem retirada da página do Qwen3.6-35B-A3B no Hugging Face em "precise coding".

Ad

Integração com VS Code

O usuário configurou um modelo de chat personalizado em chatLanguageModels.json apontando para o servidor local do llama.cpp:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Você é um assistente de codificação preciso. Evite repetir planos. Execute tarefas diretamente. Não reafirme intenções várias vezes.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

O modelo respondeu corretamente a requisições de chamada de ferramenta, permitindo que atuasse como substituto do Copilot.

Teste no Mundo Real: Geração Full Stack

O usuário forneceu um prompt detalhado (originalmente do ChatGPT) pedindo ao modelo para construir um "Bike Shop Service Tracker" — um aplicativo React + TypeScript local-first usando localStorage. Os requisitos incluíam modelo de dados, dados de semente, filtragem, ordenação e validação de formulário. O modelo gerou o site inteiro completamente funcional na primeira execução.

Em seguida, pediu que gerasse um conjunto completo de testes Playwright. Apenas um teste exigiu correção manual — caso contrário, a suíte rodou sem erros. A conclusão do usuário: "Acho que terminei de ajustar e testar modelos (até o próximo grande lançamento) e posso voltar a programar agora."

Para Quem é

Desenvolvedores que executam LLMs localmente para assistência de codificação, especialmente aqueles com GPUs AMD (Vulkan) que desejam uma alternativa ao Copilot com qualidade comparável.

📖 Leia a fonte original: r/LocalLLaMA

Ad

👀 See Also

OpenClaw Integra Recursos do Vazamento de Código do Claude
Tools

OpenClaw Integra Recursos do Vazamento de Código do Claude

Um usuário do OpenClaw fez seu bot analisar o código vazado do Claude (recriação em Rust por Instructkr) e portou seletivamente padrões arquiteturais específicos para sua configuração do OpenClaw. A integração foca em melhorias práticas como continuidade automática na inicialização, compactação de conversas e uma estrutura de ganchos pré-ferramenta/pós-ferramenta.

OpenClawRadar
Conselheiro de IA Persistente com Memória entre Plataformas: Rastreia Histórico de Decisões por 3 Meses
Tools

Conselheiro de IA Persistente com Memória entre Plataformas: Rastreia Histórico de Decisões por 3 Meses

Um usuário do Reddit criou um consultor de IA persistente que lembra de todas as decisões de produto no Claude Code, Cursor e uma interface web, detectando contradições e melhorando ao longo de meses.

OpenClawRadar
Sistema Operacional de Agentes de Código Aberto: Sistema operacional baseado em Rust para agentes de IA com sandboxing WASM e recurso Hands
Tools

Sistema Operacional de Agentes de Código Aberto: Sistema operacional baseado em Rust para agentes de IA com sandboxing WASM e recurso Hands

Um sistema operacional de código aberto para agentes de IA foi lançado com 137 mil linhas de código Rust sob licença MIT. O sistema executa agentes em sandboxes WASM com 16 camadas de segurança e introduz 'Mãos' para operação autônoma e programada de agentes.

OpenClawRadar
Pesquisa Aura: Ferramenta local compila documentos em wiki navegável por IA com memória persistente
Tools

Pesquisa Aura: Ferramenta local compila documentos em wiki navegável por IA com memória persistente

Aura Research é uma ferramenta de código aberto que processa documentos brutos (PDFs, artigos, notas, código, 60+ formatos) em um wiki estruturado em markdown com artigos vinculados, páginas de conceitos e um índice mestre. Ele compacta tudo em um arquivo .aura otimizado para recuperação RAG e funciona 100% localmente, sem que nenhum dado saia da sua máquina.

OpenClawRadar