Ускорение LLM в 2 раза: MTP на AMD Strix Halo и Radeon 9700

Мультитокенное предсказание (MTP) обещает до 2-кратного ускорения генерации токенов для локальных LLM. Новое демо-видео показывает MTP на оборудовании AMD Strix Halo и Dual Radeon 9700 AI Pro, ориентированном на модели класса Qwen 3.6.

Ключевые детали

Производительность: MTP ускоряет вывод LLM до 2 раз, что особенно полезно для кодирующих агентов.
Протестированное оборудование: AMD Strix Halo (вероятно, серия Ryzen AI 300) и Dual Radeon 9700 AI Pro (RDNA 4).
Модель: Qwen 3.6 (предположительно Qwen2.5-7B или аналогичная, точный вариант не указан).
Формат демо: видео на YouTube, объясняющее принцип работы MTP и измеренные улучшения.

MTP работает за счет параллельного предсказания нескольких будущих токенов за один прямой проход, что сокращает количество авторегрессионных шагов. Этот метод особенно эффективен для структурированных выходных данных, таких как код, где паттерны токенов более предсказуемы.

Для контекста: недавний стек GPU-вычислений AMD (ROCm) догоняет NVIDIA CUDA для вывода LLM, и реализации MTP через llama.cpp или vLLM могут еще больше сократить разрыв. Разработчикам, использующим локальные кодирующие агенты (например, CodeLlama, DeepSeek-Coder), следует ожидать значительного ускорения на поддерживаемом оборудовании.

📖 Источник: r/LocalLLaMA

MTP Multi-Token Prediction: генерация токенов в 2 раза быстрее на AMD Strix Halo и Radeon 9700 AI Pro

Ключевые детали

👀 Смотрите также

Исследование динамичного мира движущихся машин

Rust спасет Linux от ИИ: Грег Кроа-Хартман об ошибках C и гарантиях безопасности Rust

Платформа искусственного интеллекта Palantir используется для отслеживания помощи Газе в координационном центре под руководством США.

ICML 2026 отклоняет 2% статей без рецензирования из-за нарушения политики проверки с помощью ИИ.