Qwen 3.6 27B с MTP на V100 32GB: 54 т/с через ветку llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 6 мая 2026 г.🔗 Source
Qwen 3.6 27B с MTP на V100 32GB: 54 т/с через ветку llama.cpp
Ad

Пользователь на r/LocalLLaMA сообщает о впечатляющих результатах запуска Qwen 3.6 27B с Multi-Token Prediction (MTP) на модуле V100 32GB SXM через адаптер PCIe. В настройке используется ветка MTP от am17an для llama.cpp и соответствующий GGUF квантизатор MTP. Ключевые характеристики: KV-кэш Q8_0 с лимитом в 200k, работа в качестве бэкенда VS Code Copilot через llama-server.

Производительность

  • Без MTP: 29-30 токенов/секунду
  • С MTP: 54-55 токенов/секунду (при ограничении мощности 150 Вт)
  • После 50k токенов контекста: падает до 40-45 т/с

Ветка: MTP-форк am17an. Сборка и запуск были простыми — "скачал и собрал за один раз" с llama-server, работающим без проблем. Настройка хорошо справляется с вызовами инструментов и под-агентами, а также выдала "очень содержательные рецензии кода и рефакторинг", несмотря на ограничение VRAM (32 ГБ).

Это особенно актуально для разработчиков, запускающих LLM на старом датацентровом оборудовании, таком как V100. MTP фактически удваивает пропускную способность для этой модели, демонстрируя практические преимущества для задач ассистента кодирования.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Graph Compose: Размещенные временные рабочие процессы с визуальным конструктором и искусственным интеллектом
Инструменты

Graph Compose: Размещенные временные рабочие процессы с визуальным конструктором и искусственным интеллектом

Graph Compose — это хостинговая платформа для оркестрации API-воркфлоу на Temporal, позволяющая определять воркфлоу в виде JSON-графов с тремя методами построения: визуальный конструктор React Flow, TypeScript SDK и AI-ассистент, преобразующий обычный английский текст в графы.

OpenClawRadar
Memento Vault: Локальный инструмент для сохранения контекста в сессиях Claude Code
Инструменты

Memento Vault: Локальный инструмент для сохранения контекста в сессиях Claude Code

Memento Vault — это набор хуков, которые автоматически захватывают транскрипты сессий, оценивают их и сохраняют атомарные заметки в локальном git-репозитории. Он обеспечивает поиск с нулевой стоимостью через BM25 + векторный поиск со средней задержкой 472 мс и вводит релевантный контекст при запуске сессии, при каждом запросе и при чтении файлов.

OpenClawRadar
Kios: Читалка для iOS для самостоятельно размещённых библиотек Kobo/Calibre с синхронизацией прогресса
Инструменты

Kios: Читалка для iOS для самостоятельно размещённых библиотек Kobo/Calibre с синхронизацией прогресса

Kios — это iOS-приложение для чтения книг с самостоятельных серверов Kobo/Calibre с синхронизацией прогресса через протокол Kobo, OPDS 1.2/2.0 и kosync. Создано с помощью Claude.

OpenClawRadar
Сравнение RunLobster и размещенных решений OpenClaw
Инструменты

Сравнение RunLobster и размещенных решений OpenClaw

Разработчик тестировал RunLobster против KiwiClaw, xCloud и самостоятельно размещённого OpenClaw по 2 недели каждый. RunLobster принципиально отличается как продукт, а не просто хостинг, с 3000 интеграций в один клик и памятью, которая накапливается со временем.

OpenClawRadar