MTP Multi-Token Prediction: генерация токенов в 2 раза быстрее на AMD Strix Halo и Radeon 9700 AI Pro

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source
MTP Multi-Token Prediction: генерация токенов в 2 раза быстрее на AMD Strix Halo и Radeon 9700 AI Pro
Ad

Мультитокенное предсказание (MTP) обещает до 2-кратного ускорения генерации токенов для локальных LLM. Новое демо-видео показывает MTP на оборудовании AMD Strix Halo и Dual Radeon 9700 AI Pro, ориентированном на модели класса Qwen 3.6.

Ad

Ключевые детали

  • Производительность: MTP ускоряет вывод LLM до 2 раз, что особенно полезно для кодирующих агентов.
  • Протестированное оборудование: AMD Strix Halo (вероятно, серия Ryzen AI 300) и Dual Radeon 9700 AI Pro (RDNA 4).
  • Модель: Qwen 3.6 (предположительно Qwen2.5-7B или аналогичная, точный вариант не указан).
  • Формат демо: видео на YouTube, объясняющее принцип работы MTP и измеренные улучшения.

MTP работает за счет параллельного предсказания нескольких будущих токенов за один прямой проход, что сокращает количество авторегрессионных шагов. Этот метод особенно эффективен для структурированных выходных данных, таких как код, где паттерны токенов более предсказуемы.

Для контекста: недавний стек GPU-вычислений AMD (ROCm) догоняет NVIDIA CUDA для вывода LLM, и реализации MTP через llama.cpp или vLLM могут еще больше сократить разрыв. Разработчикам, использующим локальные кодирующие агенты (например, CodeLlama, DeepSeek-Coder), следует ожидать значительного ускорения на поддерживаемом оборудовании.

📖 Источник: r/LocalLLaMA

Ad

👀 Смотрите также

DeepSeek-V4-Flash делает управление LLM практичным для локальных моделей
Новости

DeepSeek-V4-Flash делает управление LLM практичным для локальных моделей

Шин Гёдекс объясняет, почему векторы управления снова актуальны благодаря DeepSeek-V4-Flash, работающему локально через DwarfStar, с практическими деталями о том, как работает управление и почему оно не получило распространения раньше.

OpenClawRadar
Изучение нового чат-слоя, созданного для ИИ-агентов: требуется обратная связь от сообщества!
Новости

Изучение нового чат-слоя, созданного для ИИ-агентов: требуется обратная связь от сообщества!

В мире ИИ и автоматизации появилось захватывающее новшество с введением нового слоя чата для ИИ-агентов. Создатели приглашают пользователей сообщества OpenClaw поделиться своими отзывами. Узнайте о потенциале этого инновационного инструмента.

OpenClawRadar
Opus 4.6 превосходит в исследованиях, Gemini 3.1 Pro лучше в прогнозировании
Новости

Opus 4.6 превосходит в исследованиях, Gemini 3.1 Pro лучше в прогнозировании

Бенчмарк из 1417 бинарных вопросов для прогнозирования разделяет производительность исследований и суждений: Claude Opus 4.6 лидирует в агентных исследованиях, Gemini 3.1 Pro побеждает в калибровке на фиксированных данных. GPT-5.4 и Grok 4.20 показывают незначительные изменения между условиями.

OpenClawRadar
Cowork 可以在你不知道的情况下使用另一台机器上的 Chrome 实例
Новости

Cowork 可以在你不知道的情况下使用另一台机器上的 Chrome 实例

Пользователь Reddit обнаружил, что Cowork может запускать задачи браузера с помощью экземпляра Chrome на другом компьютере (Windows), связанном через расширение, помеченном как isLocal: false — это не документировано.

OpenClawRadar