Оптимизация Qwen 3.6 27B/35B на RTX 3090: флаги, квантование и автоматическая маршрутизация

Разработчик, запускающий модели Qwen 3.6 локально на RTX 3090 (24 ГБ VRAM), Ryzen 5700X, 64 ГБ RAM, Windows 11, сталкивается с проблемами производительности и надежности. Он использует llama-server с пользовательскими флагами и ищет советы по выбору кванта, пропускной способности и автоматической маршрутизации моделей.
Команды и квантизации
35B (UD Q4_K_M):
llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.027B (UD Q4_K_XL):
llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0Сообщаемые проблемы
- 35B слишком медленная – даже простые итеративные задачи кажутся непригодными для использования.
- 27B быстрее, но ненадежна – вывод кода ломается; простые задачи могут занимать 20–30 минут.
- Ручное переключение моделей – нужно убить сервер, вставить новую команду, перезагрузить модель.
Конкретные вопросы
- Оптимальны ли флаги? (например, размер контекста, размер пакета, тип кэша)
- Какой квант/модель дает лучший баланс скорости и точности кодирования на 24 ГБ VRAM?
- Как автоматически переключать модели по запросу или держать несколько моделей в памяти и маршрутизировать?
Контекст
Пользователь запускает Hermes agent на Raspberry Pi 5 для сбора данных и автоматизации, а локальное кодирование — через OpenCode/QwenCode. Он хочет настройку, не требующую ручных перезапусков сервера.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Рекомендации по настройке локальной LLM для OpenClaw
Пользователь делится своей конфигурацией для запуска локальной LLM с OpenClaw, используя GB10 для обработки ИИ и Mac mini для установки OpenClaw, с указанием конкретных деталей модели и сервера.

OpenClaw 4.1 с Gemma 4 Stack: Гибридная архитектура и исправления в настройке
В посте на Reddit описывается оптимизированный локальный стек агентов, объединяющий OpenClaw 4.1 с моделью Gemma 4 от Google. Он включает гибридную архитектуру, конкретные исправления конфигурации для вызова инструментов Ollama и настройки контекстного окна.

Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки
Пользователь Reddit делится рабочей конфигурацией llama.cpp для моделей Qwen3.6-35B-A3B GGUF на RTX 4060 (8 ГБ VRAM) + 32 ГБ DDR5, достигая 37-51 ток/с при контексте 192k с использованием TurboQuant и специальных флагов.

Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13
Разработчик делится исправлением для запуска OpenClaw 2026.3.13 на Android 16 через Termux и proot Ubuntu 25.10, где приложение вылетает с ошибкой 'uv_interface_addresses returned Unknown system error 13'. Решение — скрипт-перехватчик на JavaScript, который переопределяет os.networkInterfaces().