Оптимизация Qwen 3.6 27B/35B на RTX 3090: флаги, квантование и автоматическая маршрутизация

✍️ OpenClawRadar📅 Опубликовано: 5 мая 2026 г.🔗 Source
Оптимизация Qwen 3.6 27B/35B на RTX 3090: флаги, квантование и автоматическая маршрутизация
Ad

Разработчик, запускающий модели Qwen 3.6 локально на RTX 3090 (24 ГБ VRAM), Ryzen 5700X, 64 ГБ RAM, Windows 11, сталкивается с проблемами производительности и надежности. Он использует llama-server с пользовательскими флагами и ищет советы по выбору кванта, пропускной способности и автоматической маршрутизации моделей.

Команды и квантизации

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0
Ad

Сообщаемые проблемы

  • 35B слишком медленная – даже простые итеративные задачи кажутся непригодными для использования.
  • 27B быстрее, но ненадежна – вывод кода ломается; простые задачи могут занимать 20–30 минут.
  • Ручное переключение моделей – нужно убить сервер, вставить новую команду, перезагрузить модель.

Конкретные вопросы

  • Оптимальны ли флаги? (например, размер контекста, размер пакета, тип кэша)
  • Какой квант/модель дает лучший баланс скорости и точности кодирования на 24 ГБ VRAM?
  • Как автоматически переключать модели по запросу или держать несколько моделей в памяти и маршрутизировать?

Контекст

Пользователь запускает Hermes agent на Raspberry Pi 5 для сбора данных и автоматизации, а локальное кодирование — через OpenCode/QwenCode. Он хочет настройку, не требующую ручных перезапусков сервера.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Рекомендации по настройке локальной LLM для OpenClaw
Гайды

Рекомендации по настройке локальной LLM для OpenClaw

Пользователь делится своей конфигурацией для запуска локальной LLM с OpenClaw, используя GB10 для обработки ИИ и Mac mini для установки OpenClaw, с указанием конкретных деталей модели и сервера.

OpenClawRadar
OpenClaw 4.1 с Gemma 4 Stack: Гибридная архитектура и исправления в настройке
Гайды

OpenClaw 4.1 с Gemma 4 Stack: Гибридная архитектура и исправления в настройке

В посте на Reddit описывается оптимизированный локальный стек агентов, объединяющий OpenClaw 4.1 с моделью Gemma 4 от Google. Он включает гибридную архитектуру, конкретные исправления конфигурации для вызова инструментов Ollama и настройки контекстного окна.

OpenClawRadar
Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки
Гайды

Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки

Пользователь Reddit делится рабочей конфигурацией llama.cpp для моделей Qwen3.6-35B-A3B GGUF на RTX 4060 (8 ГБ VRAM) + 32 ГБ DDR5, достигая 37-51 ток/с при контексте 192k с использованием TurboQuant и специальных флагов.

OpenClawRadar
Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13
Гайды

Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13

Разработчик делится исправлением для запуска OpenClaw 2026.3.13 на Android 16 через Termux и proot Ubuntu 25.10, где приложение вылетает с ошибкой 'uv_interface_addresses returned Unknown system error 13'. Решение — скрипт-перехватчик на JavaScript, который переопределяет os.networkInterfaces().

OpenClawRadar