Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки

Пользователь Reddit опубликовал подробную настройку для запуска моделей Qwen3.6-35B-A3B GGUF с контекстом ~190k на ноутбуке с 8 ГБ VRAM (RTX 4060) и 32 ГБ DDR5 RAM. Он сообщает о 37-43 ток/с сразу после установки, а с доработками — до ~51 ток/с.
Оборудование и модели
- GPU: RTX 4060 8 ГБ VRAM
- RAM: 32 ГБ DDR5 5600 МГц
- ОС: Linux (производительность лучше, чем на Windows)
- Протестированные модели (Q5 квант):
mudler/Qwen3.6-35B-A3B-APEX-GGUF— от ~40 ток/с до 37 ток/сhesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF— от ~43 ток/с до 37 ток/с
Ключевая конфигурация
Используя форк llama.cpp с поддержкой TurboQuant (turboquant_plus), пользователь запускает llama-server со следующими флагами:
--model "<путь>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'
Чтобы повысить скорость до ~51 ток/с, отрегулируйте три флага: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (корректируйте в зависимости от стабильности/памяти).
Ограничения
- Квантование Q4 заметно хуже для длинных контекстов по сравнению с Q5.
--no-mmap+--mlockуменьшает заикания и замедления.- TurboQuant KV cache критически важен при больших размерах контекста.
- Высокая пропускная способность RAM (DDR5) важна для таких скоростей.
- Linux значительно превосходит Windows для этой задачи.
Для кого это
Разработчики, запускающие локальные LLM с очень длинными контекстами (170k+ токенов) на потребительском оборудовании, особенно с 8-12 ГБ VRAM и быстрой системной RAM.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

6 шаблонов, которые действительно активируют файлы навыков Claude Code
Протестировав более 2300 файлов навыков, разработчик выявил 6 закономерностей, определяющих, загрузится ли навык Claude Code, когда это необходимо – включая конкретный язык триггеров, одну возможность на файл и списки «когда не использовать».

Как избежать непредвиденных расходов в OpenRouter при автоматизации OpenClaw
Команда разработчиков случайно потратила $750 за 3 дня на OpenRouter, используя по умолчанию Claude Sonnet 4.6 ($3/млн токенов) для всех автоматизированных задач. Они сократили расходы на 97%, изменив модели по умолчанию, зафиксировав cron-задачи и подзадачи на более дешёвых вариантах и оставив дорогие модели только для важной работы.

Визуальное руководство по жизненному циклу 27 хуков Claude Code
Сообщество создало ресурс с визуальным и аудио-обзором всех 27 хуков Claude Code, показывающий, когда каждый срабатывает, их порядок и какие данные они получают. Проект был полностью создан с использованием самого Claude Code.

Запуск OpenClaw, ClawdBot и MoltBot с ограниченным бюджетом
Узнайте, как запускать OpenClaw, ClawdBot и MoltBot, не разоряя себя. Ознакомьтесь с советами по бюджету и бесплатными альтернативами, о которых говорили энтузиасты на r/clawdbot.