Запуск Qwen3.6-35B-A3B-UD-Q5_K_XL локально с VS Code Copilot на AMD R9700

Пользователь Reddit сообщает об отличных результатах локального запуска GGUF модели Qwen3.6-35B-A3B-UD-Q5_K_XL с помощью llama.cpp на Vulkan на одном GPU AMD R9700. Эта конфигурация стала заменой GitHub Copilot в VS Code, сгенерировав полноценный тестовый сайт и набор тестов Playwright с минимальным вмешательством.
Команда запуска llama.cpp
/app/llama-server -m /models/Qwen3.6-35B-A3B-UD-Q5_K_XL/Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf \
--ctx-size 262144 --threads 8 --threads-batch 8 \
--gpu-layers 99 --parallel 1 --flash-attn on \
--batch-size 2048 --ubatch-size 1024 \
--cache-type-k q8_0 --cache-type-v q8_0 \
--cache-ram 12000 --ctx-checkpoints 50 \
--mmap --no-mmproj --kv-unified \
--reasoning off --reasoning-budget 0 --jinja \
--temp 0.6 --top-k 20 --top-p 0.95 --min-p 0.0 \
--repeat-penalty 1.0 --presence-penalty 0.0
Ключевые параметры: контекст 256K, 99 слоев GPU для полной выгрузки, включен flash attention, а sampling настройки взяты со страницы Qwen3.6-35B-A3B на Hugging Face в разделе "precise coding".
Интеграция с VS Code
Пользователь настроил кастомную чат-модель в chatLanguageModels.json, указав локальный сервер llama.cpp:
{
"name": "Sean Llama.cpp",
"vendor": "customoai",
"apiKey": "${input:chat.lm.secret.3c0c0f21}",
"models": [
{
"id": "Qwen3.6-35B-A3B-UD-Q5_K_XL.gguf",
"name": "Qwen3.6-35B",
"url": "https://llm.home.arpa/v1/chat/completions",
"toolCalling": true,
"vision": false,
"maxInputTokens": 180000,
"maxOutputTokens": 10000,
"family": "Qwen3",
"inputTokenCost": 0.0001,
"outputTokenCost": 0.0001,
"temperature": 0.6,
"top_p": 0.95,
"top_k": 20,
"repeat_penalty": 1,
"presence_penalty": 0,
"frequency_penalty": 0,
"systemMessage": "Вы — точный ассистент по программированию. Избегайте повторения планов. Выполняйте задачи напрямую. Не формулируйте намерения несколько раз.",
"timeout": 600000,
"retry": { "enabled": true, "max_attempts": 2, "interval_ms": 1500 }
}
]
}
Модель корректно отвечала на запросы вызова инструментов, что позволило ей стать заменой Copilot.
Реальный тест: генерация полного стека
Пользователь отправил подробный запрос (изначально из ChatGPT) на создание "Bike Shop Service Tracker" — локального приложения на React + TypeScript с localStorage. Требования включали модель данных, начальные данные, фильтрацию, сортировку и валидацию форм. Модель сгенерировала полностью рабочий сайт с первой попытки.
Затем пользователь попросил сгенерировать полный набор тестов Playwright. Только один тест потребовал ручной правки — остальные сработали без ошибок. Вывод пользователя: "Думаю, я закончил настройку и тестирование моделей (до следующего крупного релиза) и могу вернуться к кодингу."
Для кого это
Разработчики, запускающие локальные LLM для помощи в кодинге, особенно с GPU AMD (Vulkan), которые хотят альтернативу Copilot с сопоставимым качеством.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Навыки Chrome: Сохраняйте и используйте AI-запросы как инструменты в один клик
Функция Google Chrome Skills позволяет пользователям сохранять AI-запросы в виде повторно используемых рабочих процессов, которые запускаются одним кликом на любой веб-странице. Навыки можно получить, набрав косую черту (/) или нажав на знак плюса (+) в Gemini в Chrome.

Развертывание артефактов дизайна Claude на живых веб-сайтах с помощью Teenyapp
Teenyapp предоставляет услуги хостинга, которые Claude Design может использовать напрямую из чата через ссылку с токеном агента, что позволяет автономно развертывать артефакты с поддержкой серверной части.

Параллельная архитектура чата Claude для разработки на Next.js
Разработчик создал систему для одновременного запуска нескольких чатов Claude AI на одной кодовой базе Next.js с использованием общей таблицы базы данных и опрашивающего агента, достигнув 87% успешных сборок без единого конфликта слияния за одну сессию.

Термрендер: 6-кратно эффективная по токенам ASCII-визуализация интерфейса для Claude
Termrender — это инструмент с открытым исходным кодом на Python, который генерирует ASCII-визуализации интерфейсов с эффективностью использования токенов в 6 раз выше по сравнению с исходным выводом Claude. Он создаёт диаграммы и панели, используя минимальное количество токенов для более быстрой генерации и редактирования.