Запуск Qwen3.6-35B-A3B-UD-Q5_K_XL локально с VS Code Copilot на AMD R9700

✍️ OpenClawRadar📅 Опубликовано: 7 мая 2026 г.🔗 Source
Запуск Qwen3.6-35B-A3B-UD-Q5_K_XL локально с VS Code Copilot на AMD R9700
Ad

Пользователь Reddit сообщает об отличных результатах локального запуска GGUF модели Qwen3.6-35B-A3B-UD-Q5_K_XL с помощью llama.cpp на Vulkan на одном GPU AMD R9700. Эта конфигурация стала заменой GitHub Copilot в VS Code, сгенерировав полноценный тестовый сайт и набор тестов Playwright с минимальным вмешательством.

Команда запуска llama.cpp

/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
  --ctx-size 262144 --threads 8 --threads-batch 8 \
  --gpu-layers 99 --parallel 1 --flash-attn on \
  --batch-size 2048 --ubatch-size 1024 \
  --cache-type-k q8_0 --cache-type-v q8_0 \
  --cache-ram 12000 --ctx-checkpoints 50 \
  --mmap --no-mmproj --kv-unified \
  --reasoning off --reasoning-budget 0 --jinja \
  --temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
  --repeat-penalty 1.0 --presence-penalty 0.0

Ключевые параметры: контекст 256K, 99 слоев GPU для полной выгрузки, включен flash attention, а sampling настройки взяты со страницы Qwen3.6-35B-A3B на Hugging Face в разделе "precise coding".

Ad

Интеграция с VS Code

Пользователь настроил кастомную чат-модель в chatLanguageModels.json, указав локальный сервер llama.cpp:

{
  "name": "Sean Llama.cpp",
  "vendor": "customoai",
  "apiKey": "${input:chat.lm.secret.3c0c0f21}",
  "models": [
    {
      "id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
      "name": "Qwen3.6-35B",
      "url": "https://llm.home.arpa/v1/chat/completions",
      "toolCalling": true,
      "vision": false,
      "maxInputTokens": 180000,
      "maxOutputTokens": 10000,
      "family": "Qwen3",
      "inputTokenCost": 0.0001,
      "outputTokenCost": 0.0001,
      "temperature": 0.6,
      "top_p": 0.95,
      "top_k": 20,
      "repeat_penalty": 1,
      "presence_penalty": 0,
      "frequency_penalty": 0,
      "systemMessage": "Вы — точный ассистент по программированию. Избегайте повторения планов. Выполняйте задачи напрямую. Не формулируйте намерения несколько раз.",
      "timeout": 600000,
      "retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
    }
  ]
}

Модель корректно отвечала на запросы вызова инструментов, что позволило ей стать заменой Copilot.

Реальный тест: генерация полного стека

Пользователь отправил подробный запрос (изначально из ChatGPT) на создание "Bike Shop Service Tracker" — локального приложения на React + TypeScript с localStorage. Требования включали модель данных, начальные данные, фильтрацию, сортировку и валидацию форм. Модель сгенерировала полностью рабочий сайт с первой попытки.

Затем пользователь попросил сгенерировать полный набор тестов Playwright. Только один тест потребовал ручной правки — остальные сработали без ошибок. Вывод пользователя: "Думаю, я закончил настройку и тестирование моделей (до следующего крупного релиза) и могу вернуться к кодингу."

Для кого это

Разработчики, запускающие локальные LLM для помощи в кодинге, особенно с GPU AMD (Vulkan), которые хотят альтернативу Copilot с сопоставимым качеством.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Навыки Chrome: Сохраняйте и используйте AI-запросы как инструменты в один клик
Инструменты

Навыки Chrome: Сохраняйте и используйте AI-запросы как инструменты в один клик

Функция Google Chrome Skills позволяет пользователям сохранять AI-запросы в виде повторно используемых рабочих процессов, которые запускаются одним кликом на любой веб-странице. Навыки можно получить, набрав косую черту (/) или нажав на знак плюса (+) в Gemini в Chrome.

OpenClawRadar
Развертывание артефактов дизайна Claude на живых веб-сайтах с помощью Teenyapp
Инструменты

Развертывание артефактов дизайна Claude на живых веб-сайтах с помощью Teenyapp

Teenyapp предоставляет услуги хостинга, которые Claude Design может использовать напрямую из чата через ссылку с токеном агента, что позволяет автономно развертывать артефакты с поддержкой серверной части.

OpenClawRadar
Параллельная архитектура чата Claude для разработки на Next.js
Инструменты

Параллельная архитектура чата Claude для разработки на Next.js

Разработчик создал систему для одновременного запуска нескольких чатов Claude AI на одной кодовой базе Next.js с использованием общей таблицы базы данных и опрашивающего агента, достигнув 87% успешных сборок без единого конфликта слияния за одну сессию.

OpenClawRadar
Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude
Инструменты

Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude

Termrender — это инструмент с открытым исходным кодом на Python, который генерирует ASCII-визуализации интерфейсов с эффективностью использования токенов в 6 раз выше по сравнению с исходным выводом Claude. Он создаёт диаграммы и панели, используя минимальное количество токенов для более быстрой генерации и редактирования.

OpenClawRadar