Запуск Qwen3.6 27B и 35B на 6 ГБ VRAM с ik_llama: практические конфигурации и бенчмарки

✍️ OpenClawRadar📅 Опубликовано: 17 мая 2026 г.🔗 Source
Запуск Qwen3.6 27B и 35B на 6 ГБ VRAM с ik_llama: практические конфигурации и бенчмарки
Ad

Пользователь Reddit сообщает об успешном запуске моделей Qwen3.6 27B и 35B A3B на старом игровом ноутбуке с RTX 2060 Mobile (6 ГБ VRAM) и 32 ГБ ОЗУ с использованием ik_llama и llama.cpp. Ключевые оптимизации включают двойное спекулятивное декодирование с MTP и ngram, --fit и --mtp-requantize-output-tensor, а также переупаковку выходного тензора. Ниже приведены точные конфиги и наблюдаемые скорости.

Конфиг для Qwen3.6 27B (Q3_K_XL)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on
Ad

Конфиг для Qwen3.6 35B A3B (IQ4_XS, дистиллят Claude Opus)

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Показатели производительности

  • 27B: префилл ~100 т/с, первый токен до 4 т/с, ~1 т/с при контексте 10k
  • 35B A3B: префилл ~40 т/с, первый токен до 15 т/с, стабильные ~11 т/с при контексте 10k

Пользователь отмечает, что 27B стал пригоден для рассуждений о файлах до 1000 строк (занимает минуты, но полезно), а дистиллят 35B Opus выдаёт стабильные 11 т/с. Он использует их для генерации mermaid-диаграмм, изображений, markdown и PDF в рабочих процессах little-coder или агентного кодинга.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Настройка OpenClaw на macOS с унифицированной конечной точкой AI-провайдера
Гайды

Настройка OpenClaw на macOS с унифицированной конечной точкой AI-провайдера

Разработчик делится своим опытом установки OpenClaw на macOS, включая требование Node.js 24, использование Homebrew для установки, настройку совместимого с OpenAI кастомного провайдера, такого как ZenMux, и настройку фонового демона. Ключевые советы по устранению неполадок включают блокировку сообщений по умолчанию в WhatsApp и использование команды openclaw doctor.

OpenClawRadar
别再问该用哪个AI模型:将任务分流至Haiku、Sonnet和Opus层级
Гайды

别再问该用哪个AI模型:将任务分流至Haiku、Sonnet和Opus层级

Используйте как минимум три модели в зависимости от типа задачи: уровень Haiku для чтения и обобщения, уровень Sonnet для написания кода и уровень Opus только для многофайловых рефакторингов и отладки. Один пользователь распределяет 40% запросов на дешёвые модели, 35% на средние, 25% на передовые, тратя около 30–40 долларов в месяц.

OpenClawRadar
Проблемы и решения при настройке условного доступа Claude Code O365 MCP
Гайды

Проблемы и решения при настройке условного доступа Claude Code O365 MCP

Разработчик делится конкретными решениями для двух проблем, возникших при настройке O365 MCP коннектора Claude Code в условиях политик условного доступа: поиск правильных идентификаторов приложений для правил политик и устранение ошибок аутентификации, связанных с местоположением серверов.

OpenClawRadar
Визуальное руководство по жизненному циклу 27 хуков Claude Code
Гайды

Визуальное руководство по жизненному циклу 27 хуков Claude Code

Сообщество создало ресурс с визуальным и аудио-обзором всех 27 хуков Claude Code, показывающий, когда каждый срабатывает, их порядок и какие данные они получают. Проект был полностью создан с использованием самого Claude Code.

OpenClawRadar