MTP + Unified Memory повышает производительность вывода llama.cpp на 30% на RTX 5090
Комбинация GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 с многотокенным прогнозированием (MTP) в llama.cpp дает прирост пропускной способности примерно на 30% — 64 ток/сек против 49 ток/сек на модели Qwen3.6-27B Q8_0. Тест проводился на RTX 5090 в паре с 128 ГБ DDR5 5600 CL36 и Ryzen 9 9950X3D.
Команда и конфигурация
CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
--threads 16 \
-c 262144 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3 \
--webui-mcp-proxy \
--chat-template-kwargs '{"preserve_thinking": true}' \
--host 0.0.0.0 \
--port 8090 \
--jinja
Ключевые флаги:
GGML_CUDA_ENABLE_UNIFIED_MEMORY=1— позволяет GPU напрямую обращаться к памяти хоста, минуя CUDA malloc для больших контекстов.--spec-type mtp --spec-draft-n-max 3— включает спекуляцию с многотокенным прогнозированием с глубиной черновика 3.Qwen3.6-27B-Q8_0.gguf— модель Qwen3.6 с 27B параметрами, квантованная до Q8_0, подготовленная с поддержкой MTP от Unsloth.-c 262144— окно контекста 256K;-fa onдля flash attention.
Результаты
- Без MTP (только unified memory): 49 ток/сек
- С MTP + unified memory: 64 ток/сек
- Прирост: на 30% выше пропускная способность
Параметр draft-n-max равный 3 означает, что модель предсказывает до 3 токенов вперед, уменьшая накладные расходы на последовательное декодирование. В сочетании с unified memory избегаются дорогие передачи по PCIe между CPU и GPU.
Для кого это
Разработчики, запускающие локальный инференс с большим контекстом на высокопроизводительных потребительских GPU (RTX 5090) с достаточным объемом системной памяти (≥128 ГБ). Подходит для чат-ботов, ассистентов кода или любых задач LLM, чувствительных к задержкам, где поддерживается спекулятивная выборка.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Выпущен Claude Code Production Grade Plugin v3.0: Автономный конвейер разработки программного обеспечения
Плагин Production Grade Plugin v3.0 для Claude Code теперь доступен как бесплатное программное обеспечение с открытым исходным кодом по лицензии MIT. Плагин создаёт полный конвейер разработки от требований до развёртывания с 13 ИИ-навыками, которые действуют как инженерная команда.

Расписания Claude Code: Планирование задач агента, как в Cron, с логическим обоснованием
Claude Code Routines позволяют запускать задачи агента по расписанию, не оставляя сессию открытой. Пользователь Reddit делится реальными примерами: ночной обзор коммитов, еженедельная проверка зависимостей, ежедневный анализ логов ошибок — с использованием ИИ для рассуждений вместо вывода сырых скриптов.
Коллаборация: навык Claude Code для структурированного, асинхронного написания документов с передачей между несколькими агентами
Навык Claude Code под названием «collaborate» позволяет совместно писать документы с участием нескольких авторов, где каждый участник получает от Claude краткое описание на простом английском языке предыдущих изменений, обоснований и следующих задач, с поддержкой параллельных разделов, структурированной критики и уведомлений через Slack/Signal.

Результаты тестирования небольших локальных моделей и моделей OpenRouter на задаче агентного преобразования текста в SQL
Разработчик протестировал несколько небольших локальных моделей и моделей OpenRouter с использованием пользовательского агентного бенчмарка text-to-SQL, который преобразует английские запросы в SQL с раундами отладки. Бенчмарк включает 25 вопросов, выполняется менее чем за 5 минут и выявляет лучшие модели, такие как kimi-k2.5 и варианты Qwen 3.5.