hipEngine: Qwen 3.6推論がRDNA3で最大2718 tok/s

Qwen 3.6 MoEおよび高密度モデル向けの新しいROCmネイティブ推論エンジンが登場しました：hipEngine。開発者はFastDMSとParoQuantの開発者です。Pythonベースで、ホットパスはHIP/C++で記述され、hipBLASLt、hipGraph、AOTritonなどのAMDネイティブライブラリを使用。重いPyTorch依存はありません。

対象ハードウェア

gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900（RDNA3）。Strix Haloもサポート。

llama.cppとのベンチマーク比較

Qwen 3.6 35B MoE（ParoQuant 4.68 bpwおよびGGUF Q4_K_Sを使用）において、hipEngineはテストしたすべてのコンテキスト長（512〜128K）でllama.cppのHIPおよびVulkanに匹敵または上回ります。主な数値（プリフィルtok/s、512プロンプト/128生成）：

hipEngine PARO： 2718.497 tok/s
hipEngine GGUF Q4_K_S： 2258.847 tok/s
llama.cpp HIP： 2436.049 tok/s
llama.cpp Vulkan： 1816.927 tok/s

128Kコンテキストでは、hipEngine PAROのプリフィルが1055 tok/sに達し、llama.cpp HIPの710 tok/sに対して48%向上。デコードtok/sは同等（60〜127 tok/sの範囲）です。

メモリ効率

hipEngineはほぼロスレスなINT8 KVキャッシュを使用し、速度低下はほとんどありません。これにより、単一の7900 XTX上でQwen 3.6の256Kコンテキストウィンドウ全体を24GB未満で実行できます：

128Kコンテキスト、BF16 KV： サンプルピーク21.04 GiB、プリフィル1091.9 tok/s、デコード62.2 tok/s
128Kコンテキスト、INT8 KV： サンプルピーク19.80 GiB、プリフィル1076.5 tok/s、デコード60.0 tok/s
128K時のピークメモリ（hipEngine PARO）： 22.122 GiB、llama.cpp HIPの23.605 GiBと比較

機能

AGPLv3オープンソース
ROCmネイティブ、ホットパスにPyTorch依存なし
hipBLASLt、hipGraph、AOTritonを使用
ParoQuantをROCmに移植
INT8 KVキャッシュ（ほぼロスレス、速度への影響最小）
Qwen 3.6 MoEおよび高密度モデルをサポート

RDNA3ハードウェアでQwen 3.6を実行しているなら、hipEngineは検討に値します。特にメモリに制約のある256Kコンテキストのユースケースで有効です。

📖 出典全文： r/LocalLLaMA

hipEngine: RDNA3向け高速ネイティブQwen 3.6推論（Strix Halo、7900 XTX）

対象ハードウェア

llama.cppとのベンチマーク比較

メモリ効率

機能

👀 See Also

Apple Neural EngineのリバースエンジニアリングによるMicroGPTモデルのトレーニング

Docent: Claude Codeで構築された論文分析AIアシスタント

Agent MCP Studio: Build Multi-Agent MCP Systems Entirely in a Browser via WASM

ClawCallが専用電話番号を取得：エージェントが発信番号を予約可能に