Qwen 3.6 27B/35B на RTX 3090: флаги и квантование

Разработчик, запускающий модели Qwen 3.6 локально на RTX 3090 (24 ГБ VRAM), Ryzen 5700X, 64 ГБ RAM, Windows 11, сталкивается с проблемами производительности и надежности. Он использует llama-server с пользовательскими флагами и ищет советы по выбору кванта, пропускной способности и автоматической маршрутизации моделей.

Команды и квантизации

35B (UD Q4_K_M):

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B (UD Q4_K_XL):

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

Сообщаемые проблемы

35B слишком медленная – даже простые итеративные задачи кажутся непригодными для использования.
27B быстрее, но ненадежна – вывод кода ломается; простые задачи могут занимать 20–30 минут.
Ручное переключение моделей – нужно убить сервер, вставить новую команду, перезагрузить модель.

Конкретные вопросы

Оптимальны ли флаги? (например, размер контекста, размер пакета, тип кэша)
Какой квант/модель дает лучший баланс скорости и точности кодирования на 24 ГБ VRAM?
Как автоматически переключать модели по запросу или держать несколько моделей в памяти и маршрутизировать?

Контекст

Пользователь запускает Hermes agent на Raspberry Pi 5 для сбора данных и автоматизации, а локальное кодирование — через OpenCode/QwenCode. Он хочет настройку, не требующую ручных перезапусков сервера.

📖 Читать полный источник: r/LocalLLaMA

Оптимизация Qwen 3.6 27B/35B на RTX 3090: флаги, квантование и автоматическая маршрутизация

Команды и квантизации

Сообщаемые проблемы

Конкретные вопросы

Контекст

👀 Смотрите также

Onboarding в OpenClaw: как правильно обучить своего AI-агента

Практический глоссарий терминов ИИ-агентов (Harness, Scaffold, Agent и т.д.)

Экспорт истории ChatGPT в систему памяти OpenClaw

Файлы CLAUDE.md часто организованы для разработчиков, а не для ИИ-моделей — вот почему это важно