hipEngine：面向RDNA3（Strix Halo、7900 XTX）的快速原生Qwen 3.6推理

✍️ OpenClawRadar📅 Опубликовано: 25 мая 2026 г.🔗 Source

Появился новый нативный движок вывода для Qwen 3.6 MoE и плотных моделей на базе ROCm: hipEngine от разработчика, создавшего FastDMS и ParoQuant. Он написан на Python с горячими участками на HIP/C++ и использует нативные библиотеки AMD, такие как hipBLASLt, hipGraph и AOTriton. Нет тяжелой зависимости от PyTorch.

Целевое оборудование

gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Также поддерживается Strix Halo.

Бенчмарки против llama.cpp

На Qwen 3.6 35B MoE (с использованием ParoQuant 4.68 bpw и GGUF Q4_K_S) hipEngine соответствует или превосходит llama.cpp HIP и Vulkan при всех тестируемых длинах контекста (512–128K). Ключевые показатели (префилл ток/с, 512 промпт / 128 генерация):

hipEngine PARO: 2718.497 ток/с
hipEngine GGUF Q4_K_S: 2258.847 ток/с
llama.cpp HIP: 2436.049 ток/с
llama.cpp Vulkan: 1816.927 ток/с

При контексте 128K префилл hipEngine PARO достигает 1055 ток/с против 710 ток/с у llama.cpp HIP — улучшение на 48%. Скорость декодирования сопоставима (диапазон 60–127 ток/с).

Эффективность памяти

hipEngine использует почти без потерь кэш KV в INT8 с почти нулевым снижением скорости. Это позволяет запускать полное окно контекста Qwen 3.6 256K менее чем в 24 ГБ на одной 7900 XTX:

Контекст 128K, кэш KV BF16: пиковое потребление 21.04 ГиБ, префилл 1091.9 ток/с, декодирование 62.2 ток/с
Контекст 128K, кэш KV INT8: пиковое потребление 19.80 ГиБ, префилл 1076.5 ток/с, декодирование 60.0 ток/с
Пиковая память при 128K (hipEngine PARO): 22.122 ГиБ против 23.605 ГиБ у llama.cpp HIP

Возможности

Открытый исходный код под лицензией AGPLv3
Нативный ROCm, без зависимости от PyTorch в горячем пути
Использует hipBLASLt, hipGraph, AOTriton
ParoQuant портирован на ROCm
Кэш KV в INT8 (почти без потерь, минимальное влияние на скорость)
Поддерживает Qwen 3.6 MoE и плотные модели

Если вы запускаете Qwen 3.6 на оборудовании RDNA3, hipEngine стоит внимания — особенно для задач с ограничением памяти и контекстом 256K.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Инструменты

Представляем cltree: текстовый интерфейс для файлового дерева для Claude Code

<strong>cltree</strong> — это TUI с разделённой панелью, который в реальном времени отображает файловое дерево вашего проекта рядом с Claude Code, показывая текущую рабочую директорию, скрывая лишние файлы и позволяя всем нажатиям клавиш проходить без помех.

13 февр. 2026 г., 11:45 UTC

OpenClawRadar

Инструменты

Клод Код против Кодекса: Реальное тестирование сборки – 36 файлов против 28, бесконечный цикл и разница в стоимости в $0.46

Разработчик сравнивает Claude Code и Codex (через Cursor) на двух реальных задачах: бот для триажа PR и веб-интерфейс для ревью кода через WebSocket. Claude создал 36 файлов за 12 минут с нулевыми ошибками TypeScript; Codex сделал рабочий интерфейс, но попал в бесконечный цикл React. Разница в стоимости: ~$0.46.

14 мая 2026 г., 00:16 UTC

OpenClawRadar

Инструменты

Открытая система постоянной памяти для Claude Code решает проблему потери контекста между сессиями.

Разработчик создал файловую систему памяти для Claude Code, которая автоматически захватывает контекст проекта без плагинов или API-ключей. Она использует транскрипты разговоров, файл входящих сообщений и ночные задания cron для поддержания постоянной памяти между сессиями.

15 апр. 2026 г., 10:45 UTC

OpenClawRadar

Инструменты

Солитер: Открытая инфраструктура идентификации для ИИ-агентов

Solitaire — это проект с открытым исходным кодом, представляющий инфраструктуру идентификации для ИИ-агентов, который фокусируется на том, как агенты улучшают свои рабочие отношения с пользователями со временем, а не только на запоминании. Проект является локально-ориентированным, независимым от модели и доступен через pip install solitaire-ai.

14 апр. 2026 г., 08:45 UTC

OpenClawRadar