hipEngine:面向RDNA3(Strix Halo、7900 XTX)的快速原生Qwen 3.6推理

✍️ OpenClawRadar📅 Опубликовано: 25 мая 2026 г.🔗 Source
hipEngine:面向RDNA3(Strix Halo、7900 XTX)的快速原生Qwen 3.6推理
Ad

Появился новый нативный движок вывода для Qwen 3.6 MoE и плотных моделей на базе ROCm: hipEngine от разработчика, создавшего FastDMS и ParoQuant. Он написан на Python с горячими участками на HIP/C++ и использует нативные библиотеки AMD, такие как hipBLASLt, hipGraph и AOTriton. Нет тяжелой зависимости от PyTorch.

Целевое оборудование

  • gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Также поддерживается Strix Halo.

Бенчмарки против llama.cpp

На Qwen 3.6 35B MoE (с использованием ParoQuant 4.68 bpw и GGUF Q4_K_S) hipEngine соответствует или превосходит llama.cpp HIP и Vulkan при всех тестируемых длинах контекста (512–128K). Ключевые показатели (префилл ток/с, 512 промпт / 128 генерация):

  • hipEngine PARO: 2718.497 ток/с
  • hipEngine GGUF Q4_K_S: 2258.847 ток/с
  • llama.cpp HIP: 2436.049 ток/с
  • llama.cpp Vulkan: 1816.927 ток/с

При контексте 128K префилл hipEngine PARO достигает 1055 ток/с против 710 ток/с у llama.cpp HIP — улучшение на 48%. Скорость декодирования сопоставима (диапазон 60–127 ток/с).

Ad

Эффективность памяти

hipEngine использует почти без потерь кэш KV в INT8 с почти нулевым снижением скорости. Это позволяет запускать полное окно контекста Qwen 3.6 256K менее чем в 24 ГБ на одной 7900 XTX:

  • Контекст 128K, кэш KV BF16: пиковое потребление 21.04 ГиБ, префилл 1091.9 ток/с, декодирование 62.2 ток/с
  • Контекст 128K, кэш KV INT8: пиковое потребление 19.80 ГиБ, префилл 1076.5 ток/с, декодирование 60.0 ток/с
  • Пиковая память при 128K (hipEngine PARO): 22.122 ГиБ против 23.605 ГиБ у llama.cpp HIP

Возможности

  • Открытый исходный код под лицензией AGPLv3
  • Нативный ROCm, без зависимости от PyTorch в горячем пути
  • Использует hipBLASLt, hipGraph, AOTriton
  • ParoQuant портирован на ROCm
  • Кэш KV в INT8 (почти без потерь, минимальное влияние на скорость)
  • Поддерживает Qwen 3.6 MoE и плотные модели

Если вы запускаете Qwen 3.6 на оборудовании RDNA3, hipEngine стоит внимания — особенно для задач с ограничением памяти и контекстом 256K.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

主动式上下文旋转检测在Claude Code中的应用:来自r/ClaudeAI的功能建议
Инструменты

主动式上下文旋转检测在Claude Code中的应用:来自r/ClaudeAI的功能建议

Предложение функции Reddit предлагает, чтобы Claude Code активно обнаруживал гниение контекста и предлагал структурированную передачу задачи с областью видимости, создавая файл передачи и автоматически запуская новый сеанс.

OpenClawRadar
Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2
Инструменты

Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2

Исследователи достигли улучшения в 2,8 раза на бенчмарке ARC-AGI-2, используя эволюцию кода с открытыми весами моделей, достигнув точности 34% при стоимости $2,67 за задачу. Тот же метод позволил повысить точность Gemini 3.1 Pro до 95% при стоимости $8,71 за задачу.

OpenClawRadar
pop-pay MCP сервер добавляет платежные ограничения для агентов Claude Code.
Инструменты

pop-pay MCP сервер добавляет платежные ограничения для агентов Claude Code.

pop-pay — это MCP-сервер, который позволяет агентам Claude Code обрабатывать покупки без раскрытия номеров кредитных карт. Он использует CDP-инъекцию для размещения данных виртуальных карт непосредственно в платежных iframe, при этом Claude получает только замаскированные номера подтверждения.

OpenClawRadar
Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.
Инструменты

Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.

Идеанатор — это CLI инструмент, разработанный самоучкой 19-летним разработчиком с использованием локальных LLM, таких как Ollama/MLX. Он преобразует неопределенные идеи в четко определенные концепции, полностью офлайн.

OpenClawRadar