Qwen 3.6 27B MTP на V100: 54 т/с через llama.cpp

Пользователь на r/LocalLLaMA сообщает о впечатляющих результатах запуска Qwen 3.6 27B с Multi-Token Prediction (MTP) на модуле V100 32GB SXM через адаптер PCIe. В настройке используется ветка MTP от am17an для llama.cpp и соответствующий GGUF квантизатор MTP. Ключевые характеристики: KV-кэш Q8_0 с лимитом в 200k, работа в качестве бэкенда VS Code Copilot через llama-server.

Производительность

Без MTP: 29-30 токенов/секунду
С MTP: 54-55 токенов/секунду (при ограничении мощности 150 Вт)
После 50k токенов контекста: падает до 40-45 т/с

Ветка: MTP-форк am17an. Сборка и запуск были простыми — "скачал и собрал за один раз" с llama-server, работающим без проблем. Настройка хорошо справляется с вызовами инструментов и под-агентами, а также выдала "очень содержательные рецензии кода и рефакторинг", несмотря на ограничение VRAM (32 ГБ).

Это особенно актуально для разработчиков, запускающих LLM на старом датацентровом оборудовании, таком как V100. MTP фактически удваивает пропускную способность для этой модели, демонстрируя практические преимущества для задач ассистента кодирования.

📖 Читать полный источник: r/LocalLLaMA

Qwen 3.6 27B с MTP на V100 32GB: 54 т/с через ветку llama.cpp

Производительность

👀 Смотрите также

Graph Compose: Размещенные временные рабочие процессы с визуальным конструктором и искусственным интеллектом

Memento Vault: Локальный инструмент для сохранения контекста в сессиях Claude Code

Kios: Читалка для iOS для самостоятельно размещённых библиотек Kobo/Calibre с синхронизацией прогресса

Сравнение RunLobster и размещенных решений OpenClaw