Qwen3.6-35B-A3B на 8 ГБ VRAM: Настройка и бенчмарки

Пользователь Reddit опубликовал подробную настройку для запуска моделей Qwen3.6-35B-A3B GGUF с контекстом ~190k на ноутбуке с 8 ГБ VRAM (RTX 4060) и 32 ГБ DDR5 RAM. Он сообщает о 37-43 ток/с сразу после установки, а с доработками — до ~51 ток/с.

Оборудование и модели

GPU: RTX 4060 8 ГБ VRAM
RAM: 32 ГБ DDR5 5600 МГц
ОС: Linux (производительность лучше, чем на Windows)
Протестированные модели (Q5 квант):
- mudler/Qwen3.6-35B-A3B-APEX-GGUF — от ~40 ток/с до 37 ток/с
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF — от ~43 ток/с до 37 ток/с

Ключевая конфигурация

Используя форк llama.cpp с поддержкой TurboQuant (turboquant_plus), пользователь запускает llama-server со следующими флагами:

--model "<путь>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Чтобы повысить скорость до ~51 ток/с, отрегулируйте три флага: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (корректируйте в зависимости от стабильности/памяти).

Ограничения

Квантование Q4 заметно хуже для длинных контекстов по сравнению с Q5.
--no-mmap + --mlock уменьшает заикания и замедления.
TurboQuant KV cache критически важен при больших размерах контекста.
Высокая пропускная способность RAM (DDR5) важна для таких скоростей.
Linux значительно превосходит Windows для этой задачи.

Для кого это

Разработчики, запускающие локальные LLM с очень длинными контекстами (170k+ токенов) на потребительском оборудовании, особенно с 8-12 ГБ VRAM и быстрой системной RAM.

📖 Источник: r/LocalLLaMA

Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки

Оборудование и модели

Ключевая конфигурация

Ограничения

Для кого это

👀 Смотрите также

Пользователи OpenClaw Docker: зафиксируйте коммит 0c926a2c5, чтобы исправить неработающие расширения Discord и каналов.

Структура кода Claude, проверенная в нескольких реальных проектах

DeepSeek-V4-Flash W4A16+FP8 с MTP-самоспекуляцией: 85 ток/с на 2x RTX PRO 6000 Max-Q

Трехуровневая архитектура памяти для постоянного контекста агента OpenClaw