Пользовательский бэкенд llama.cpp переносит матричное умножение LLM на NPU AMD XDNA2 в процессорах Ryzen AI MAX 385

✍️ OpenClawRadar📅 Опубликовано: 26 марта 2026 г.🔗 Source

Пользовательский бэкенд для выгрузки на NPU AMD XDNA2

Разработчик создал пользовательский бэкенд llama.cpp, который отправляет операции GEMM напрямую на NPU AMD XDNA2 в Ryzen AI MAX 385 (Strix Halo). Этот подход позволяет избежать использования iGPU и конфликтов в общей памяти.

Конфигурация оборудования и программного обеспечения

Модель: Meta-Llama-3.1-8B-Instruct Q4_K_M

Оборудование: Ryzen AI MAX 385, CachyOS 6.19, драйвер amdxdna, XRT 2.21.75

Результаты производительности

Vulkan предзаполнение + NPU декодирование: 930 t/s предзаполнение (pp512), 43,7 t/s декодирование (tg64), средняя мощность 41,5 Вт, 0,947 Дж/токен
Только Vulkan: 833 t/s предзаполнение, 41,6 t/s декодирование, средняя мощность 52,2 Вт, 1,3 Дж/токен
Только CPU: 4,6 t/s предзаполнение, 3,76 t/s декодирование

Путь декодирования через NPU экономит примерно 10 Вт по сравнению с использованием только Vulkan, при этом сохраняя (и даже немного превосходя) пропускную способность декодирования, поскольку iGPU остается свободным для других задач.

Технологический стек

Ядра: mlir-aie xclbins (Xilinx/mlir-aie, Apache 2.0)
Динамическая отправка: XRT 2.21.75
Основа: Форк ggml-org/llama.cpp (MIT)
Маршрутизация ядер: 4 слота xclbin, покрывающих различные тайлы K-измерения, с маршрутизацией MIN_N/MAX_N для выбора подходящего ядра во время выполнения

Исследование потолка производительности

Разработчик пытался превысить показатель 43,7 t/s декодирования с помощью нескольких подходов:

Перебор пакетов N=1..64: Улучшений нет (плоская производительность)
Int4 двойное квантование: Убило SNR (44,8 → 19,7 дБ) - тупиковый путь
Каскадная выгрузка: Исключена документацией AMD
Спекулятивное декодирование с черновиком Llama-3.2-1B: 44% принятия, 212 t/s черновик, но нулевой эффективный прирост

Отсутствие улучшений от спекулятивного декодирования (которое обычно дает прирост при 44% принятия) указывает на то, что узким местом является пропускная способность LPDDR5, а не вычисления. NPU уже упирается в ограничение памяти, что делает 43,7 t/s потолком для этой модели на данном оборудовании.

Ссылки на проект

GitHub: https://github.com/BrandedTamarasu-glitch/OllamaAMDNPU
Журнал изменений: https://brandedtamarasu-glitch.github.io/OllamaAMDNPU/xdna-npu/

Проект был создан с помощью Claude Sonnet 4.6 / Claude Code, что раскрыто для целей воспроизводимости. Разработчик ищет отзывы от других пользователей, работающих на Strix Halo или Phoenix с драйвером amdxdna, чтобы сравнить пропускную способность декодирования на сопоставимых квантованиях и определить, сталкиваются ли другие конфигурации XDNA2 с тем же потолком производительности.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Спецификация-ориентированный рабочий процесс для Claude Code: декомпозиция, очистка контекста и контроль затрат

Подход к разработке на основе спецификаций для Claude Code, использующий двумерную декомпозицию, очистку контекста между шагами и запись спецификаций на диск для повышения производительности агента и снижения затрат.

22 мая 2026 г., 12:21 UTC

OpenClawRadar

Инструменты

Прямой разговор: навык Claude с открытым исходным кодом, который требует честной обратной связи, а не одобрения

Новый открытый навык Claude под названием Straight Talk заставляет Claude отказываться от подтверждения идей, пока он не поймет ситуацию, а затем генерирует контраргументы и проверяет предположения на прочность.

14 июн. 2026 г., 00:19 UTC

OpenClawRadar

Инструменты

/compress-architecture: Умение агента по устранению избыточного проектирования

Новое умение агента под названием /compress-architecture проверяет кодовые базы на наличие спекулятивных слоев, транзитных модулей и дублирующихся концепций, защищая при этом реальные границы доменов и публичные API.

19 мая 2026 г., 06:16 UTC

OpenClawRadar

Инструменты

CC-Ledger: Отслеживайте затраты Claude Code за сессию и PR с помощью локального SQLite

CC-Ledger — это Rust-бинарник, который подключается к Claude Code и записывает каждый запрос в локальную SQLite. Отслеживайте неконтролируемые сессии в реальном времени и получайте разбивку затрат на PR без необходимости в API-ключе. Включает строку меню macOS, веб-панель и CLI.

22 мая 2026 г., 00:17 UTC

OpenClawRadar