Qwen3.6-35B-A3B-UD-Q5_K_XL Lokal mit VS Code Copilot auf AMD R9700 Ausführen

Ein Reddit-Benutzer berichtet von großartigen Ergebnissen beim lokalen Ausführen des Qwen3.6-35B-A3B-UD-Q5_K_XL GGUF-Modells mit llama.cpp und Vulkan auf einer einzelnen AMD R9700 GPU. Das Setup diente als direkter Ersatz für GitHub Copilot in VS Code und generierte mit minimalem Eingriff eine vollständige Test-Website sowie eine Playwright-Testsuite.

llama.cpp-Startbefehl

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Wichtige Parameter: 256K Kontextfenster, 99 GPU-Layer für vollständiges Offloading, Flash Attention aktiviert und Sampling-Konfiguration von der Qwen3.6-35B-A3B Hugging Face-Seite unter "präzises Codieren" übernommen.

VS Code-Integration

Der Benutzer konfigurierte ein benutzerdefiniertes Chat-Modell in chatLanguageModels.json, das auf den lokalen llama.cpp-Server verweist:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Du bist ein präziser Code-Assistent. Vermeide es, Pläne zu wiederholen. Führe Aufgaben direkt aus. Wiederhole Absichten nicht mehrmals.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

Das Modell reagierte korrekt auf Tool-Calling-Anfragen und konnte somit als Copilot-Ersatz fungieren.

Realwelt-Test: Full-Stack-Generierung

Der Benutzer gab einen detaillierten Prompt (ursprünglich von ChatGPT) ein, der das Modell bat, einen "Bike Shop Service Tracker" zu erstellen – eine lokale React + TypeScript-App mit localStorage. Die Anforderungen umfassten ein Datenmodell, Seed-Daten, Filtern, Sortieren und Formularvalidierung. Das Modell generierte die gesamte Website beim ersten Durchlauf voll funktionsfähig.

Als Nächstes forderte es der Benutzer auf, eine vollständige Playwright-Testsuite zu generieren. Nur ein Test erforderte eine manuelle Korrektur – ansonsten lief die Suite fehlerfrei. Das Fazit des Benutzers: "Ich glaube, ich bin fertig mit dem Optimieren und Testen von Modellen (bis zum nächsten großen Release) und kann jetzt wieder programmieren."

Für wen es gedacht ist

Entwickler, die lokale LLMs zur Code-Unterstützung einsetzen, insbesondere solche mit AMD-GPUs (Vulkan), die eine Copilot-Alternative mit vergleichbarer Qualität suchen.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ausführen von Qwen3.6-35B-A3B-UD-Q5_K_XL lokal mit VS Code Copilot auf AMD R9700

llama.cpp-Startbefehl

VS Code-Integration

Realwelt-Test: Full-Stack-Generierung

Für wen es gedacht ist

👀 Siehe auch

IUM: MCP-Symbol-Indexer reduziert KI-Agent-Tokenverbrauch um 15,9x im Vergleich zu grep

HolyClaude: Docker-Container für Claude-Code mit Browser-UI und Headless Chromium

OpenClaw Plugin für AxonFlow: Vorab-Genehmigung von Tools & PII-Schwärzung

LLM-Architektur-Galerie: Visuelle Referenz für Modellentwürfe