AMD R9700でQwen3.6-35Bをローカル実行：VS Code Copilot活用ガイド

Reddit ユーザーが、Qwen3.6-35B-A3B-UD-Q5_K_XL GGUF モデルを llama.cpp で Vulkan を用いて AMD R9700 1枚の GPU でローカル実行し、素晴らしい結果を報告しています。このセットアップは VS Code で GitHub Copilot の代替として機能し、最小限の介入で完全なテスト用ウェブサイトと Playwright テストスイートを生成しました。

llama.cpp 起動コマンド

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

主なパラメータ: 256K コンテキストウィンドウ、完全オフロードのための 99 GPU レイヤー、フラッシュアテンション有効、サンプリング設定は Qwen3.6-35B-A3B Hugging Face ページの「precise coding」から取得。

VS Code 統合

ユーザーは chatLanguageModels.json にローカルの llama.cpp サーバーを指すカスタムチャットモデルを設定しました:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "You are a precise coding assistant. Avoid repeating plans. Execute tasks directly. Do not restate intentions multiple times.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

モデルはツール呼び出し要求に正しく応答し、Copilot の代替として機能しました。

実用的テスト: フルスタック生成

ユーザーは詳細なプロンプト（元は ChatGPT から）を与え、「Bike Shop Service Tracker」という localStorage を使用したローカルファーストの React + TypeScript アプリの構築を依頼しました。要件にはデータモデル、シードデータ、フィルタリング、ソート、フォームバリデーションが含まれていました。モデルはウェブサイト全体を完全に機能する状態で初回実行で生成しました。

次に、完全な Playwright テストスイートの生成を依頼しました。1つのテストのみ手動修正が必要でしたが、それ以外はエラーなく実行されました。ユーザーの結論: 「私はモデルの調整とテストは（次の大きなリリースまで）終えたと思います。コーディングに戻れます。」