AMD R9700上でVS Code Copilotを使用してQwen3.6-35B-A3B-UD-Q5_K_XLをローカル実行

Reddit ユーザーが、Qwen3.6-35B-A3B-UD-Q5_K_XL GGUF モデルを llama.cpp で Vulkan を用いて AMD R9700 1枚の GPU でローカル実行し、素晴らしい結果を報告しています。このセットアップは VS Code で GitHub Copilot の代替として機能し、最小限の介入で完全なテスト用ウェブサイトと Playwright テストスイートを生成しました。
llama.cpp 起動コマンド
/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
--ctx-size 262144 --threads 8 --threads-batch 8 \
--gpu-layers 99 --parallel 1 --flash-attn on \
--batch-size 2048 --ubatch-size 1024 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--cache-ram 12000 --ctx-checkpoints 50 \
--mmap --no-mmproj --kv-unified \
--reasoning off --reasoning-budget 0 --jinja \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
--repeat-penalty 1.0 --presence-penalty 0.0
主なパラメータ: 256K コンテキストウィンドウ、完全オフロードのための 99 GPU レイヤー、フラッシュアテンション有効、サンプリング設定は Qwen3.6-35B-A3B Hugging Face ページ の「precise coding」から取得。
VS Code 統合
ユーザーは chatLanguageModels.json にローカルの llama.cpp サーバーを指すカスタムチャットモデルを設定しました:
{
"name": "Sean Llama.cpp",
"vendor": "customoai",
"apiKey": "${input:chat.lm.secret.3c0c0f21}",
"models": [
{
"id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
"name": "Qwen3.6-35B",
"url": "https://llm.home.arpa/v1/chat/completions",
"toolCalling": true,
"vision": false,
"maxInputTokens": 180000,
"maxOutputTokens": 10000,
"family": "Qwen3",
"inputTokenCost": 0.0001,
"outputTokenCost": 0.0001,
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"repeat_penalty": 1,
"presence_penalty": 0,
"frequency_penalty": 0,
"systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
"timeout": 600000,
"retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
}
]
}
モデルはツール呼び出し要求に正しく応答し、Copilot の代替として機能しました。
実用的テスト: フルスタック生成
ユーザーは詳細なプロンプト(元は ChatGPT から)を与え、「Bike Shop Service Tracker」という localStorage を使用したローカルファーストの React + TypeScript アプリの構築を依頼しました。要件にはデータモデル、シードデータ、フィルタリング、ソート、フォームバリデーションが含まれていました。モデルはウェブサイト全体を完全に機能する状態で初回実行で生成しました。
次に、完全な Playwright テストスイートの生成を依頼しました。1つのテストのみ手動修正が必要でしたが、それ以外はエラーなく実行されました。ユーザーの結論: 「私はモデルの調整とテストは(次の大きなリリースまで)終えたと思います。コーディングに戻れます。」
対象読者
ローカル LLM をコーディング支援に使用している開発者、特に AMD GPU(Vulkan)を使用していて、同等の品質を持つ Copilot の代替を探している方。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

cltreeの紹介:Claude Code向けファイルツリーTUI
cltreeは、Claude Codeと並行して動作するように設計されたスプリットペインのターミナルユーザーインターフェース(TUI)です。現在の作業ディレクトリを表示し、ノイズを隠し、すべてのキーストロークを通過させることで、リアルタイムでプロジェクトのファイルツリーを表示します。
PullMD v2.4.1、claude.aiウェブ用ネイティブMCPコネクタとマルチユーザー認証を追加
PullMD v2.4.1は、OAuth 2.1 + PKCE-S256によるclaude.ai Webカスタムコネクタダイアログをサポートし、マルチユーザー認証モードを追加しました。セルフホスト型MCPを介して任意のURLをクリーンなMarkdownに変換します。

デザインスタジオ環境を模倣するClaudeスキル
デザイナーが共有する2つのクロードスキル:1つはチームメイトとデザインメソッドを備えたスタジオをシミュレーションし、もう1つは創造性のために「厳格な遊び」を追加する。

Claude Auto-Continue: Chrome拡張機能がツール使用制限の中断を自動化します
開発者が、Claudeが約20回のツール使用後にツール使用制限に達した際に自動的に「続行」をクリックする無料のChrome拡張機能を作成しました。これにより、エージェントワークフロー中の手動中断がなくなり、作業の連続性が保たれます。この拡張機能にはオプションのトークン最小化機能が含まれており、すべてのタブとウィンドウで動作します。