llama.cpp + MTP: +30% вывод на RTX 5090

Комбинация GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 с многотокенным прогнозированием (MTP) в llama.cpp дает прирост пропускной способности примерно на 30% — 64 ток/сек против 49 ток/сек на модели Qwen3.6-27B Q8_0. Тест проводился на RTX 5090 в паре с 128 ГБ DDR5 5600 CL36 и Ryzen 9 9950X3D.

Команда и конфигурация

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Ключевые флаги:

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — позволяет GPU напрямую обращаться к памяти хоста, минуя CUDA malloc для больших контекстов.
--spec-type mtp --spec-draft-n-max 3 — включает спекуляцию с многотокенным прогнозированием с глубиной черновика 3.
Qwen3.6-27B-Q8_0.gguf — модель Qwen3.6 с 27B параметрами, квантованная до Q8_0, подготовленная с поддержкой MTP от Unsloth.
-c 262144 — окно контекста 256K; -fa on для flash attention.

Результаты

Без MTP (только unified memory): 49 ток/сек
С MTP + unified memory: 64 ток/сек
Прирост: на 30% выше пропускная способность

Параметр draft-n-max равный 3 означает, что модель предсказывает до 3 токенов вперед, уменьшая накладные расходы на последовательное декодирование. В сочетании с unified memory избегаются дорогие передачи по PCIe между CPU и GPU.

Для кого это

Разработчики, запускающие локальный инференс с большим контекстом на высокопроизводительных потребительских GPU (RTX 5090) с достаточным объемом системной памяти (≥128 ГБ). Подходит для чат-ботов, ассистентов кода или любых задач LLM, чувствительных к задержкам, где поддерживается спекулятивная выборка.

📖 Read the full source: r/LocalLLaMA

MTP + Unified Memory повышает производительность вывода llama.cpp на 30% на RTX 5090

Команда и конфигурация

Результаты

Для кого это

👀 Смотрите также

Loom: Локальный исполнительный механизм для сложных задач искусственного интеллекта

Проект "Реестр": Система памяти с участием человека для AI-агентов в программировании

Ruflo: Открытая платформа для совместной работы нескольких ИИ-агентов

ClaudeHive: Веб-интерфейс для управления параллельными сессиями кода Claude