Ausführen von Qwen3.6-35B-A3B-UD-Q5_K_XL lokal mit VS Code Copilot auf AMD R9700

Ein Reddit-Benutzer berichtet von großartigen Ergebnissen beim lokalen Ausführen des Qwen3.6-35B-A3B-UD-Q5_K_XL GGUF-Modells mit llama.cpp und Vulkan auf einer einzelnen AMD R9700 GPU. Das Setup diente als direkter Ersatz für GitHub Copilot in VS Code und generierte mit minimalem Eingriff eine vollständige Test-Website sowie eine Playwright-Testsuite.
llama.cpp-Startbefehl
/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
--ctx-size 262144 --threads 8 --threads-batch 8 \
--gpu-layers 99 --parallel 1 --flash-attn on \
--batch-size 2048 --ubatch-size 1024 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--cache-ram 12000 --ctx-checkpoints 50 \
--mmap --no-mmproj --kv-unified \
--reasoning off --reasoning-budget 0 --jinja \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
--repeat-penalty 1.0 --presence-penalty 0.0
Wichtige Parameter: 256K Kontextfenster, 99 GPU-Layer für vollständiges Offloading, Flash Attention aktiviert und Sampling-Konfiguration von der Qwen3.6-35B-A3B Hugging Face-Seite unter "präzises Codieren" übernommen.
VS Code-Integration
Der Benutzer konfigurierte ein benutzerdefiniertes Chat-Modell in chatLanguageModels.json, das auf den lokalen llama.cpp-Server verweist:
{
"name": "Sean Llama.cpp",
"vendor": "customoai",
"apiKey": "${input:chat.lm.secret.3c0c0f21}",
"models": [
{
"id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
"name": "Qwen3.6-35B",
"url": "https://llm.home.arpa/v1/chat/completions",
"toolCalling": true,
"vision": false,
"maxInputTokens": 180000,
"maxOutputTokens": 10000,
"family": "Qwen3",
"inputTokenCost": 0.0001,
"outputTokenCost": 0.0001,
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"repeat_penalty": 1,
"presence_penalty": 0,
"frequency_penalty": 0,
"systemMessage": "Du bist ein präziser Code-Assistent. Vermeide es, Pläne zu wiederholen. Führe Aufgaben direkt aus. Wiederhole Absichten nicht mehrmals.",
"timeout": 600000,
"retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
}
]
}
Das Modell reagierte korrekt auf Tool-Calling-Anfragen und konnte somit als Copilot-Ersatz fungieren.
Realwelt-Test: Full-Stack-Generierung
Der Benutzer gab einen detaillierten Prompt (ursprünglich von ChatGPT) ein, der das Modell bat, einen "Bike Shop Service Tracker" zu erstellen – eine lokale React + TypeScript-App mit localStorage. Die Anforderungen umfassten ein Datenmodell, Seed-Daten, Filtern, Sortieren und Formularvalidierung. Das Modell generierte die gesamte Website beim ersten Durchlauf voll funktionsfähig.
Als Nächstes forderte es der Benutzer auf, eine vollständige Playwright-Testsuite zu generieren. Nur ein Test erforderte eine manuelle Korrektur – ansonsten lief die Suite fehlerfrei. Das Fazit des Benutzers: "Ich glaube, ich bin fertig mit dem Optimieren und Testen von Modellen (bis zum nächsten großen Release) und kann jetzt wieder programmieren."
Für wen es gedacht ist
Entwickler, die lokale LLMs zur Code-Unterstützung einsetzen, insbesondere solche mit AMD-GPUs (Vulkan), die eine Copilot-Alternative mit vergleichbarer Qualität suchen.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

IUM: MCP-Symbol-Indexer reduziert KI-Agent-Tokenverbrauch um 15,9x im Vergleich zu grep
IUM indexiert Codebasen in einer SQLite-Matrix von Symbolereignissen und legt genaue Datei:Zeilen-Koordinaten, Call-Graph-Tracing und semantische Suche über MCP offen. Im Benchmark gegen DataFusion (1.538 Dateien) zeigt sich ein 15,9x geringerer Tokenverbrauch als grep für äquivalente Abfragen.

HolyClaude: Docker-Container für Claude-Code mit Browser-UI und Headless Chromium
HolyClaude ist ein Open-Source-Docker-Container, der die Claude Code CLI mit einer Browser-UI, headlessem Chromium und zusätzlichen KI-Codierungstools bündelt. Die Einrichtung erfordert nur docker compose up und bietet Zugriff unter localhost:3001.

OpenClaw Plugin für AxonFlow: Vorab-Genehmigung von Tools & PII-Schwärzung
Ein selbst gehostetes OpenClaw-Plugin, das Tool-Argumente vor der Ausführung prüft, riskante Aufrufe für menschliche Freigabe pausiert und PII aus ausgehenden Nachrichten entfernt. Nutzt OpenClaw-Lifecycle-Hooks – keine Code-Änderungen am Agenten nötig.

LLM-Architektur-Galerie: Visuelle Referenz für Modellentwürfe
Sebastian Raschkas LLM-Architektur-Galerie sammelt Architekturdiagramme und Datenblätter aus The Big LLM Architecture Comparison und A Dream of Spring for Open-Weight LLMs, mit detaillierten Spezifikationen für Modelle wie Llama 3 8B, DeepSeek V3 und Gemma 3 27B.