Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки

✍️ OpenClawRadar📅 Опубликовано: 10 мая 2026 г.🔗 Source
Запуск Qwen3.6-35B-A3B с ~190k контекстом на 8 ГБ VRAM + 32 ГБ ОЗУ – Настройка и бенчмарки
Ad

Пользователь Reddit опубликовал подробную настройку для запуска моделей Qwen3.6-35B-A3B GGUF с контекстом ~190k на ноутбуке с 8 ГБ VRAM (RTX 4060) и 32 ГБ DDR5 RAM. Он сообщает о 37-43 ток/с сразу после установки, а с доработками — до ~51 ток/с.

Оборудование и модели

  • GPU: RTX 4060 8 ГБ VRAM
  • RAM: 32 ГБ DDR5 5600 МГц
  • ОС: Linux (производительность лучше, чем на Windows)
  • Протестированные модели (Q5 квант):
    • mudler/Qwen3.6-35B-A3B-APEX-GGUF — от ~40 ток/с до 37 ток/с
    • hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF — от ~43 ток/с до 37 ток/с

Ключевая конфигурация

Используя форк llama.cpp с поддержкой TurboQuant (turboquant_plus), пользователь запускает llama-server со следующими флагами:

--model "<путь>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

Чтобы повысить скорость до ~51 ток/с, отрегулируйте три флага: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (корректируйте в зависимости от стабильности/памяти).

Ad

Ограничения

  • Квантование Q4 заметно хуже для длинных контекстов по сравнению с Q5.
  • --no-mmap + --mlock уменьшает заикания и замедления.
  • TurboQuant KV cache критически важен при больших размерах контекста.
  • Высокая пропускная способность RAM (DDR5) важна для таких скоростей.
  • Linux значительно превосходит Windows для этой задачи.

Для кого это

Разработчики, запускающие локальные LLM с очень длинными контекстами (170k+ токенов) на потребительском оборудовании, особенно с 8-12 ГБ VRAM и быстрой системной RAM.

📖 Источник: r/LocalLLaMA

Ad

👀 Смотрите также

6 шаблонов, которые действительно активируют файлы навыков Claude Code
Гайды

6 шаблонов, которые действительно активируют файлы навыков Claude Code

Протестировав более 2300 файлов навыков, разработчик выявил 6 закономерностей, определяющих, загрузится ли навык Claude Code, когда это необходимо – включая конкретный язык триггеров, одну возможность на файл и списки «когда не использовать».

OpenClawRadar
Как избежать непредвиденных расходов в OpenRouter при автоматизации OpenClaw
Гайды

Как избежать непредвиденных расходов в OpenRouter при автоматизации OpenClaw

Команда разработчиков случайно потратила $750 за 3 дня на OpenRouter, используя по умолчанию Claude Sonnet 4.6 ($3/млн токенов) для всех автоматизированных задач. Они сократили расходы на 97%, изменив модели по умолчанию, зафиксировав cron-задачи и подзадачи на более дешёвых вариантах и оставив дорогие модели только для важной работы.

OpenClawRadar
Визуальное руководство по жизненному циклу 27 хуков Claude Code
Гайды

Визуальное руководство по жизненному циклу 27 хуков Claude Code

Сообщество создало ресурс с визуальным и аудио-обзором всех 27 хуков Claude Code, показывающий, когда каждый срабатывает, их порядок и какие данные они получают. Проект был полностью создан с использованием самого Claude Code.

OpenClawRadar
Запуск OpenClaw, ClawdBot и MoltBot с ограниченным бюджетом
Гайды

Запуск OpenClaw, ClawdBot и MoltBot с ограниченным бюджетом

Узнайте, как запускать OpenClaw, ClawdBot и MoltBot, не разоряя себя. Ознакомьтесь с советами по бюджету и бесплатными альтернативами, о которых говорили энтузиасты на r/clawdbot.

OpenClawRadar