hipEngine: RDNA3向け高速ネイティブQwen 3.6推論(Strix Halo、7900 XTX)

✍️ OpenClawRadar📅 公開日: May 25, 2026🔗 Source
hipEngine: RDNA3向け高速ネイティブQwen 3.6推論(Strix Halo、7900 XTX)
Ad

Qwen 3.6 MoEおよび高密度モデル向けの新しいROCmネイティブ推論エンジンが登場しました:hipEngine。開発者はFastDMSとParoQuantの開発者です。Pythonベースで、ホットパスはHIP/C++で記述され、hipBLASLt、hipGraph、AOTritonなどのAMDネイティブライブラリを使用。重いPyTorch依存はありません。

対象ハードウェア

  • gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900(RDNA3)。Strix Haloもサポート。

llama.cppとのベンチマーク比較

Qwen 3.6 35B MoE(ParoQuant 4.68 bpwおよびGGUF Q4_K_Sを使用)において、hipEngineはテストしたすべてのコンテキスト長(512〜128K)でllama.cppのHIPおよびVulkanに匹敵または上回ります。主な数値(プリフィルtok/s、512プロンプト/128生成):

  • hipEngine PARO: 2718.497 tok/s
  • hipEngine GGUF Q4_K_S: 2258.847 tok/s
  • llama.cpp HIP: 2436.049 tok/s
  • llama.cpp Vulkan: 1816.927 tok/s

128Kコンテキストでは、hipEngine PAROのプリフィルが1055 tok/sに達し、llama.cpp HIPの710 tok/sに対して48%向上。デコードtok/sは同等(60〜127 tok/sの範囲)です。

Ad

メモリ効率

hipEngineはほぼロスレスなINT8 KVキャッシュを使用し、速度低下はほとんどありません。これにより、単一の7900 XTX上でQwen 3.6の256Kコンテキストウィンドウ全体を24GB未満で実行できます:

  • 128Kコンテキスト、BF16 KV: サンプルピーク21.04 GiB、プリフィル1091.9 tok/s、デコード62.2 tok/s
  • 128Kコンテキスト、INT8 KV: サンプルピーク19.80 GiB、プリフィル1076.5 tok/s、デコード60.0 tok/s
  • 128K時のピークメモリ(hipEngine PARO): 22.122 GiB、llama.cpp HIPの23.605 GiBと比較

機能

  • AGPLv3オープンソース
  • ROCmネイティブ、ホットパスにPyTorch依存なし
  • hipBLASLt、hipGraph、AOTritonを使用
  • ParoQuantをROCmに移植
  • INT8 KVキャッシュ(ほぼロスレス、速度への影響最小)
  • Qwen 3.6 MoEおよび高密度モデルをサポート

RDNA3ハードウェアでQwen 3.6を実行しているなら、hipEngineは検討に値します。特にメモリに制約のある256Kコンテキストのユースケースで有効です。

📖 出典全文: r/LocalLLaMA

Ad

👀 See Also

SmallClaw V1.0.3は、Webhooks、n8nオートメーション、およびMCPサーバーサポートを追加しました。
Tools

SmallClaw V1.0.3は、Webhooks、n8nオートメーション、およびMCPサーバーサポートを追加しました。

SmallClaw V1.0.3では、外部サービストリガーのためのWebhookエンドポイント、n8nを使用したローカル自動化ワークフロー、およびツール統合のためのMCPサーバー接続が導入されました。このアップデートは、小さなローカルLLMで動作するというツールの焦点を維持しています。

OpenClawRadar
開発者がClaude Codeを使用してAI/ML求人ボードを構築、デザインとSEOを強化
Tools

開発者がClaude Codeを使用してAI/ML求人ボードを構築、デザインとSEOを強化

開発者がMOAIJobs.comを作成しました。これは主要なAIラボや企業のAI/ML求人をキュレーションする無料サイトで、カテゴリ、勤務地、給与範囲による絞り込みが可能です。サイトのデザインと技術的SEO実装は、開発者が提供した参考資料と説明に基づいてClaude Codeが担当しました。

OpenClawRadar
クラ:依存関係ゼロで自己完結型のLinuxサーバー監視
Tools

クラ:依存関係ゼロで自己完結型のLinuxサーバー監視

Kulaは、外部依存関係やデータベースを必要としない単一のバイナリとして動作する軽量なLinuxサーバー監視ツールです。/procと/sysから1秒ごとにシステムメトリクスを収集し、組み込みの階層化リングバッファに保存し、ウェブダッシュボードとターミナルTUIインターフェースの両方を提供します。

OpenClawRadar
OpenClawユーザーが、ChatGPTエージェントのワークフロー動作を改善する「feelslikeclaude」スキルを作成しました。
Tools

OpenClawユーザーが、ChatGPTエージェントのワークフロー動作を改善する「feelslikeclaude」スキルを作成しました。

ある開発者がOpenClawのセットアップをClaudeからChatGPTに切り替えたところ、重要な違いは文章のスタイルではなく、ワークフローの振る舞いにあることを発見しました。彼らはChatGPTの実行習慣を改善するために「feelslikeclaude」というclawhubスキルを作成しました。

OpenClawRadar