Qwen3.6-35B-A3B-UD-Q5_K_XL: Запуск с VS Code Copilot на AMD R9700

Пользователь Reddit сообщает об отличных результатах локального запуска GGUF модели Qwen3.6-35B-A3B-UD-Q5_K_XL с помощью llama.cpp на Vulkan на одном GPU AMD R9700. Эта конфигурация стала заменой GitHub Copilot в VS Code, сгенерировав полноценный тестовый сайт и набор тестов Playwright с минимальным вмешательством.

Команда запуска llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Ключевые параметры: контекст 256K, 99 слоев GPU для полной выгрузки, включен flash attention, а sampling настройки взяты со страницы Qwen3.6-35B-A3B на Hugging Face в разделе "precise coding".

Интеграция с VS Code

Пользователь настроил кастомную чат-модель в chatLanguageModels.json, указав локальный сервер llama.cpp:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Вы — точный ассистент по программированию. Избегайте повторения планов. Выполняйте задачи напрямую. Не формулируйте намерения несколько раз.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

Модель корректно отвечала на запросы вызова инструментов, что позволило ей стать заменой Copilot.

Реальный тест: генерация полного стека

Пользователь отправил подробный запрос (изначально из ChatGPT) на создание "Bike Shop Service Tracker" — локального приложения на React + TypeScript с localStorage. Требования включали модель данных, начальные данные, фильтрацию, сортировку и валидацию форм. Модель сгенерировала полностью рабочий сайт с первой попытки.

Затем пользователь попросил сгенерировать полный набор тестов Playwright. Только один тест потребовал ручной правки — остальные сработали без ошибок. Вывод пользователя: "Думаю, я закончил настройку и тестирование моделей (до следующего крупного релиза) и могу вернуться к кодингу."

Для кого это

Разработчики, запускающие локальные LLM для помощи в кодинге, особенно с GPU AMD (Vulkan), которые хотят альтернативу Copilot с сопоставимым качеством.

📖 Читать полный источник: r/LocalLLaMA

Запуск Qwen3.6-35B-A3B-UD-Q5_K_XL локально с VS Code Copilot на AMD R9700

Команда запуска llama.cpp

Интеграция с VS Code

Реальный тест: генерация полного стека

Для кого это

👀 Смотрите также

Навыки Chrome: Сохраняйте и используйте AI-запросы как инструменты в один клик

Развертывание артефактов дизайна Claude на живых веб-сайтах с помощью Teenyapp

Параллельная архитектура чата Claude для разработки на Next.js

Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude