hipEngine:面向RDNA3(Strix Halo、7900 XTX)的快速原生Qwen 3.6推理

Появился новый нативный движок вывода для Qwen 3.6 MoE и плотных моделей на базе ROCm: hipEngine от разработчика, создавшего FastDMS и ParoQuant. Он написан на Python с горячими участками на HIP/C++ и использует нативные библиотеки AMD, такие как hipBLASLt, hipGraph и AOTriton. Нет тяжелой зависимости от PyTorch.
Целевое оборудование
gfx1100— Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Также поддерживается Strix Halo.
Бенчмарки против llama.cpp
На Qwen 3.6 35B MoE (с использованием ParoQuant 4.68 bpw и GGUF Q4_K_S) hipEngine соответствует или превосходит llama.cpp HIP и Vulkan при всех тестируемых длинах контекста (512–128K). Ключевые показатели (префилл ток/с, 512 промпт / 128 генерация):
- hipEngine PARO: 2718.497 ток/с
- hipEngine GGUF Q4_K_S: 2258.847 ток/с
- llama.cpp HIP: 2436.049 ток/с
- llama.cpp Vulkan: 1816.927 ток/с
При контексте 128K префилл hipEngine PARO достигает 1055 ток/с против 710 ток/с у llama.cpp HIP — улучшение на 48%. Скорость декодирования сопоставима (диапазон 60–127 ток/с).
Эффективность памяти
hipEngine использует почти без потерь кэш KV в INT8 с почти нулевым снижением скорости. Это позволяет запускать полное окно контекста Qwen 3.6 256K менее чем в 24 ГБ на одной 7900 XTX:
- Контекст 128K, кэш KV BF16: пиковое потребление 21.04 ГиБ, префилл 1091.9 ток/с, декодирование 62.2 ток/с
- Контекст 128K, кэш KV INT8: пиковое потребление 19.80 ГиБ, префилл 1076.5 ток/с, декодирование 60.0 ток/с
- Пиковая память при 128K (hipEngine PARO): 22.122 ГиБ против 23.605 ГиБ у llama.cpp HIP
Возможности
- Открытый исходный код под лицензией AGPLv3
- Нативный ROCm, без зависимости от PyTorch в горячем пути
- Использует hipBLASLt, hipGraph, AOTriton
- ParoQuant портирован на ROCm
- Кэш KV в INT8 (почти без потерь, минимальное влияние на скорость)
- Поддерживает Qwen 3.6 MoE и плотные модели
Если вы запускаете Qwen 3.6 на оборудовании RDNA3, hipEngine стоит внимания — особенно для задач с ограничением памяти и контекстом 256K.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

主动式上下文旋转检测在Claude Code中的应用:来自r/ClaudeAI的功能建议
Предложение функции Reddit предлагает, чтобы Claude Code активно обнаруживал гниение контекста и предлагал структурированную передачу задачи с областью видимости, создавая файл передачи и автоматически запуская новый сеанс.

Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2
Исследователи достигли улучшения в 2,8 раза на бенчмарке ARC-AGI-2, используя эволюцию кода с открытыми весами моделей, достигнув точности 34% при стоимости $2,67 за задачу. Тот же метод позволил повысить точность Gemini 3.1 Pro до 95% при стоимости $8,71 за задачу.

pop-pay MCP сервер добавляет платежные ограничения для агентов Claude Code.
pop-pay — это MCP-сервер, который позволяет агентам Claude Code обрабатывать покупки без раскрытия номеров кредитных карт. Он использует CDP-инъекцию для размещения данных виртуальных карт непосредственно в платежных iframe, при этом Claude получает только замаскированные номера подтверждения.

Инди-разработчик представил CLI-инструмент 'Ideanator' для структурирования неопределенных идей с помощью локальных языковых моделей.
Идеанатор — это CLI инструмент, разработанный самоучкой 19-летним разработчиком с использованием локальных LLM, таких как Ollama/MLX. Он преобразует неопределенные идеи в четко определенные концепции, полностью офлайн.