Qwen 3.6 27B с MTP на V100 32GB: 54 т/с через ветку llama.cpp

Пользователь на r/LocalLLaMA сообщает о впечатляющих результатах запуска Qwen 3.6 27B с Multi-Token Prediction (MTP) на модуле V100 32GB SXM через адаптер PCIe. В настройке используется ветка MTP от am17an для llama.cpp и соответствующий GGUF квантизатор MTP. Ключевые характеристики: KV-кэш Q8_0 с лимитом в 200k, работа в качестве бэкенда VS Code Copilot через llama-server.
Производительность
- Без MTP: 29-30 токенов/секунду
- С MTP: 54-55 токенов/секунду (при ограничении мощности 150 Вт)
- После 50k токенов контекста: падает до 40-45 т/с
Ветка: MTP-форк am17an. Сборка и запуск были простыми — "скачал и собрал за один раз" с llama-server, работающим без проблем. Настройка хорошо справляется с вызовами инструментов и под-агентами, а также выдала "очень содержательные рецензии кода и рефакторинг", несмотря на ограничение VRAM (32 ГБ).
Это особенно актуально для разработчиков, запускающих LLM на старом датацентровом оборудовании, таком как V100. MTP фактически удваивает пропускную способность для этой модели, демонстрируя практические преимущества для задач ассистента кодирования.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Graph Compose: Размещенные временные рабочие процессы с визуальным конструктором и искусственным интеллектом
Graph Compose — это хостинговая платформа для оркестрации API-воркфлоу на Temporal, позволяющая определять воркфлоу в виде JSON-графов с тремя методами построения: визуальный конструктор React Flow, TypeScript SDK и AI-ассистент, преобразующий обычный английский текст в графы.

Memento Vault: Локальный инструмент для сохранения контекста в сессиях Claude Code
Memento Vault — это набор хуков, которые автоматически захватывают транскрипты сессий, оценивают их и сохраняют атомарные заметки в локальном git-репозитории. Он обеспечивает поиск с нулевой стоимостью через BM25 + векторный поиск со средней задержкой 472 мс и вводит релевантный контекст при запуске сессии, при каждом запросе и при чтении файлов.

Kios: Читалка для iOS для самостоятельно размещённых библиотек Kobo/Calibre с синхронизацией прогресса
Kios — это iOS-приложение для чтения книг с самостоятельных серверов Kobo/Calibre с синхронизацией прогресса через протокол Kobo, OPDS 1.2/2.0 и kosync. Создано с помощью Claude.

Сравнение RunLobster и размещенных решений OpenClaw
Разработчик тестировал RunLobster против KiwiClaw, xCloud и самостоятельно размещённого OpenClaw по 2 недели каждый. RunLobster принципиально отличается как продукт, а не просто хостинг, с 3000 интеграций в один клик и памятью, которая накапливается со временем.