hipEngine: RDNA3向け高速ネイティブQwen 3.6推論(Strix Halo、7900 XTX)

Qwen 3.6 MoEおよび高密度モデル向けの新しいROCmネイティブ推論エンジンが登場しました:hipEngine。開発者はFastDMSとParoQuantの開発者です。Pythonベースで、ホットパスはHIP/C++で記述され、hipBLASLt、hipGraph、AOTritonなどのAMDネイティブライブラリを使用。重いPyTorch依存はありません。
対象ハードウェア
gfx1100— Radeon RX 7900 XTX / Radeon Pro W7900(RDNA3)。Strix Haloもサポート。
llama.cppとのベンチマーク比較
Qwen 3.6 35B MoE(ParoQuant 4.68 bpwおよびGGUF Q4_K_Sを使用)において、hipEngineはテストしたすべてのコンテキスト長(512〜128K)でllama.cppのHIPおよびVulkanに匹敵または上回ります。主な数値(プリフィルtok/s、512プロンプト/128生成):
- hipEngine PARO: 2718.497 tok/s
- hipEngine GGUF Q4_K_S: 2258.847 tok/s
- llama.cpp HIP: 2436.049 tok/s
- llama.cpp Vulkan: 1816.927 tok/s
128Kコンテキストでは、hipEngine PAROのプリフィルが1055 tok/sに達し、llama.cpp HIPの710 tok/sに対して48%向上。デコードtok/sは同等(60〜127 tok/sの範囲)です。
メモリ効率
hipEngineはほぼロスレスなINT8 KVキャッシュを使用し、速度低下はほとんどありません。これにより、単一の7900 XTX上でQwen 3.6の256Kコンテキストウィンドウ全体を24GB未満で実行できます:
- 128Kコンテキスト、BF16 KV: サンプルピーク21.04 GiB、プリフィル1091.9 tok/s、デコード62.2 tok/s
- 128Kコンテキスト、INT8 KV: サンプルピーク19.80 GiB、プリフィル1076.5 tok/s、デコード60.0 tok/s
- 128K時のピークメモリ(hipEngine PARO): 22.122 GiB、llama.cpp HIPの23.605 GiBと比較
機能
- AGPLv3オープンソース
- ROCmネイティブ、ホットパスにPyTorch依存なし
- hipBLASLt、hipGraph、AOTritonを使用
- ParoQuantをROCmに移植
- INT8 KVキャッシュ(ほぼロスレス、速度への影響最小)
- Qwen 3.6 MoEおよび高密度モデルをサポート
RDNA3ハードウェアでQwen 3.6を実行しているなら、hipEngineは検討に値します。特にメモリに制約のある256Kコンテキストのユースケースで有効です。
📖 出典全文: r/LocalLLaMA
👀 See Also

SmallClaw V1.0.3は、Webhooks、n8nオートメーション、およびMCPサーバーサポートを追加しました。
SmallClaw V1.0.3では、外部サービストリガーのためのWebhookエンドポイント、n8nを使用したローカル自動化ワークフロー、およびツール統合のためのMCPサーバー接続が導入されました。このアップデートは、小さなローカルLLMで動作するというツールの焦点を維持しています。

開発者がClaude Codeを使用してAI/ML求人ボードを構築、デザインとSEOを強化
開発者がMOAIJobs.comを作成しました。これは主要なAIラボや企業のAI/ML求人をキュレーションする無料サイトで、カテゴリ、勤務地、給与範囲による絞り込みが可能です。サイトのデザインと技術的SEO実装は、開発者が提供した参考資料と説明に基づいてClaude Codeが担当しました。

クラ:依存関係ゼロで自己完結型のLinuxサーバー監視
Kulaは、外部依存関係やデータベースを必要としない単一のバイナリとして動作する軽量なLinuxサーバー監視ツールです。/procと/sysから1秒ごとにシステムメトリクスを収集し、組み込みの階層化リングバッファに保存し、ウェブダッシュボードとターミナルTUIインターフェースの両方を提供します。

OpenClawユーザーが、ChatGPTエージェントのワークフロー動作を改善する「feelslikeclaude」スキルを作成しました。
ある開発者がOpenClawのセットアップをClaudeからChatGPTに切り替えたところ、重要な違いは文章のスタイルではなく、ワークフローの振る舞いにあることを発見しました。彼らはChatGPTの実行習慣を改善するために「feelslikeclaude」というclawhubスキルを作成しました。