Exécution de Qwen3.6-35B-A3B-UD-Q5_K_XL en local avec VS Code Copilot sur AMD R9700

✍️ OpenClawRadar📅 Publié: May 7, 2026🔗 Source
Exécution de Qwen3.6-35B-A3B-UD-Q5_K_XL en local avec VS Code Copilot sur AMD R9700
Ad

Un utilisateur de Reddit rapporte d'excellents résultats en exécutant localement le modèle GGUF Qwen3.6-35B-A3B-UD-Q5_K_XL avec llama.cpp et Vulkan sur un seul GPU AMD R9700. Cette configuration a servi de remplacement direct à GitHub Copilot dans VS Code, générant un site web de test complet et une suite de tests Playwright avec une intervention minimale.

Commande de démarrage de llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Paramètres clés : fenêtre de contexte de 256K, 99 couches GPU pour un déchargement complet, attention flash activée, et configuration d'échantillonnage tirée de la page Hugging Face de Qwen3.6-35B-A3B sous « precise coding ».

Intégration dans VS Code

L'utilisateur a configuré un modèle de chat personnalisé dans chatLanguageModels.json pointant vers le serveur llama.cpp local :

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

Le modèle a correctement répondu aux requêtes d'appel d'outils, lui permettant d'agir comme un remplacement de Copilot.

Ad

Test réel : Génération d'une application complète

L'utilisateur a fourni une invite détaillée (provenant de ChatGPT) demandant au modèle de construire un « Bike Shop Service Tracker » — une application React + TypeScript locale utilisant localStorage. Les exigences comprenaient un modèle de données, des données de démonstration, du filtrage, du tri et une validation de formulaire. Le modèle a généré l'ensemble du site web entièrement fonctionnel dès le premier essai.

Ensuite, ils lui ont demandé de générer une suite de tests Playwright complète. Un seul test a nécessité une correction manuelle — sinon, la suite s'est exécutée sans erreur. La conclusion de l'utilisateur : « Je pense que j'ai fini de peaufiner et de tester les modèles (jusqu'à la prochaine grande version) et que je peux maintenant retourner coder. »

À qui cela s'adresse

Développeurs exécutant des LLM locaux pour l'aide au codage, en particulier ceux avec des GPU AMD (Vulkan) qui souhaitent une alternative à Copilot de qualité comparable.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Calculateur de Coûts OpenClaw Gratuit Affiche les Dépenses de Configuration Avant l'Exécution
Tools

Calculateur de Coûts OpenClaw Gratuit Affiche les Dépenses de Configuration Avant l'Exécution

Un développeur a créé un outil de navigateur gratuit et open source qui calcule les coûts de configuration OpenClaw avant exécution, décomposant les dépenses par modèle principal, chaînes de secours, consommation des battements de cœur et mode de facturation.

OpenClawRadar
ClawClone : Outil de Sauvegarde Cloud pour les Espaces de Travail OpenClaw
Tools

ClawClone : Outil de Sauvegarde Cloud pour les Espaces de Travail OpenClaw

ClawClone est un outil qui sauvegarde les espaces de travail OpenClaw dans le cloud avec une seule commande et les restaure avec une autre. Il a été créé après qu'un développeur ait perdu un mois de données d'entraînement.

OpenClawRadar
Alternative DIY OpenClaw utilisant le code Claude en mode sans interface
Tools

Alternative DIY OpenClaw utilisant le code Claude en mode sans interface

Un développeur a créé un serveur Python qui envoie des requêtes à Claude Code en mode sans interface, avec accès à un bot Telegram, automatisation Hammerspoon et stockage local de fichiers markdown pour les tâches, emplois du temps et notes.

OpenClawRadar
TranscriptionSuite v1.1.2 ajoute les modèles WhisperX, NeMo et VibeVoice.
Tools

TranscriptionSuite v1.1.2 ajoute les modèles WhisperX, NeMo et VibeVoice.

TranscriptionSuite v1.1.2 propose désormais trois pipelines de transcription : WhisperX avec diarisation PyAnnote, les modèles NeMo (Parakeet et Canary) avec diarisation PyAnnote, et les modèles VibeVoice avec diarisation intégrée. La mise à jour inclut un gestionnaire de modèles, un traitement parallèle, des raccourcis de contrôle et un pipeline d'enregistrement à 24 kHz pour VibeVoice.

OpenClawRadar