Exécution Qwen3.6-35B-A3B-UD-Q5_K_XL en local sur AMD R9700

Un utilisateur de Reddit rapporte d'excellents résultats en exécutant localement le modèle GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL avec llama.cpp et Vulkan sur un seul GPU AMD R9700. Cette configuration a servi de remplacement direct à GitHub Copilot dans VS Code, générant un site web de test complet et une suite de tests Playwright avec une intervention minimale.

Commande de démarrage de llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Paramètres clés : fenêtre de contexte de 256K, 99 couches GPU pour un déchargement complet, attention flash activée, et configuration d'échantillonnage tirée de la page Hugging Face de Qwen3.6-35B-A3B sous « precise coding ».

Intégration dans VS Code

L'utilisateur a configuré un modèle de chat personnalisé dans chatLanguageModels.json pointant vers le serveur llama.cpp local :

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

Le modèle a correctement répondu aux requêtes d'appel d'outils, lui permettant d'agir comme un remplacement de Copilot.

Test réel : Génération d'une application complète

L'utilisateur a fourni une invite détaillée (provenant de ChatGPT) demandant au modèle de construire un « Bike Shop Service Tracker » — une application React + TypeScript locale utilisant localStorage. Les exigences comprenaient un modèle de données, des données de démonstration, du filtrage, du tri et une validation de formulaire. Le modèle a généré l'ensemble du site web entièrement fonctionnel dès le premier essai.

Ensuite, ils lui ont demandé de générer une suite de tests Playwright complète. Un seul test a nécessité une correction manuelle — sinon, la suite s'est exécutée sans erreur. La conclusion de l'utilisateur : « Je pense que j'ai fini de peaufiner et de tester les modèles (jusqu'à la prochaine grande version) et que je peux maintenant retourner coder. »

À qui cela s'adresse

Développeurs exécutant des LLM locaux pour l'aide au codage, en particulier ceux avec des GPU AMD (Vulkan) qui souhaitent une alternative à Copilot de qualité comparable.

📖 Lire la source complète : r/LocalLLaMA

Exécution de Qwen3.6-35B-A3B-UD-Q5_K_XL en local avec VS Code Copilot sur AMD R9700

Commande de démarrage de llama.cpp

Intégration dans VS Code

Test réel : Génération d'une application complète

À qui cela s'adresse

👀 See Also

Myéline : Extracteur et Évaluateur MD pour la Mémoire Procédurale du Code Claude

Tableau de bord OpenClaw : Tableau de bord local pour développeurs solo avec plusieurs dépôts

PACT : Un Cadre de Gouvernance Programmatique pour le Code Claude Après les Modèles de Défaillance des Agents

Exécution de Claude Code hors ligne sur un M3 Pro avec Qwen3.6 : 4 correctifs qui ont fonctionné