MTP + Unified Memory повышает производительность вывода llama.cpp на 30% на RTX 5090

✍️ OpenClawRadar📅 Опубликовано: 12 мая 2026 г.🔗 Source
Ad

Комбинация GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 с многотокенным прогнозированием (MTP) в llama.cpp дает прирост пропускной способности примерно на 30% — 64 ток/сек против 49 ток/сек на модели Qwen3.6-27B Q8_0. Тест проводился на RTX 5090 в паре с 128 ГБ DDR5 5600 CL36 и Ryzen 9 9950X3D.

Команда и конфигурация

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Ключевые флаги:

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — позволяет GPU напрямую обращаться к памяти хоста, минуя CUDA malloc для больших контекстов.
  • --spec-type mtp --spec-draft-n-max 3 — включает спекуляцию с многотокенным прогнозированием с глубиной черновика 3.
  • Qwen3.6-27B-Q8_0.gguf — модель Qwen3.6 с 27B параметрами, квантованная до Q8_0, подготовленная с поддержкой MTP от Unsloth.
  • -c 262144 — окно контекста 256K; -fa on для flash attention.
Ad

Результаты

  • Без MTP (только unified memory): 49 ток/сек
  • С MTP + unified memory: 64 ток/сек
  • Прирост: на 30% выше пропускная способность

Параметр draft-n-max равный 3 означает, что модель предсказывает до 3 токенов вперед, уменьшая накладные расходы на последовательное декодирование. В сочетании с unified memory избегаются дорогие передачи по PCIe между CPU и GPU.

Для кого это

Разработчики, запускающие локальный инференс с большим контекстом на высокопроизводительных потребительских GPU (RTX 5090) с достаточным объемом системной памяти (≥128 ГБ). Подходит для чат-ботов, ассистентов кода или любых задач LLM, чувствительных к задержкам, где поддерживается спекулятивная выборка.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Выпущен Claude Code Production Grade Plugin v3.0: Автономный конвейер разработки программного обеспечения
Инструменты

Выпущен Claude Code Production Grade Plugin v3.0: Автономный конвейер разработки программного обеспечения

Плагин Production Grade Plugin v3.0 для Claude Code теперь доступен как бесплатное программное обеспечение с открытым исходным кодом по лицензии MIT. Плагин создаёт полный конвейер разработки от требований до развёртывания с 13 ИИ-навыками, которые действуют как инженерная команда.

OpenClawRadar
Расписания Claude Code: Планирование задач агента, как в Cron, с логическим обоснованием
Инструменты

Расписания Claude Code: Планирование задач агента, как в Cron, с логическим обоснованием

Claude Code Routines позволяют запускать задачи агента по расписанию, не оставляя сессию открытой. Пользователь Reddit делится реальными примерами: ночной обзор коммитов, еженедельная проверка зависимостей, ежедневный анализ логов ошибок — с использованием ИИ для рассуждений вместо вывода сырых скриптов.

OpenClawRadar
🦀
Инструменты

Коллаборация: навык Claude Code для структурированного, асинхронного написания документов с передачей между несколькими агентами

Навык Claude Code под названием «collaborate» позволяет совместно писать документы с участием нескольких авторов, где каждый участник получает от Claude краткое описание на простом английском языке предыдущих изменений, обоснований и следующих задач, с поддержкой параллельных разделов, структурированной критики и уведомлений через Slack/Signal.

OpenClawRadar
Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL
Инструменты

Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL

Разработчик протестировал несколько небольших локальных моделей и моделей OpenRouter с использованием пользовательского агентного бенчмарка text-to-SQL, который преобразует английские запросы в SQL с раундами отладки. Бенчмарк включает 25 вопросов, выполняется менее чем за 5 минут и выявляет лучшие модели, такие как kimi-k2.5 и варианты Qwen 3.5.

OpenClawRadar