hipEngine : Inférence native rapide de Qwen 3.6 pour RDNA3 (Strix Halo, 7900 XTX)

✍️ OpenClawRadar📅 Publié: May 25, 2026🔗 Source
hipEngine : Inférence native rapide de Qwen 3.6 pour RDNA3 (Strix Halo, 7900 XTX)
Ad

Un nouveau moteur d'inférence natif ROCm pour les modèles Qwen 3.6 MoE et denses a fait son apparition : hipEngine, développé par le créateur de FastDMS et ParoQuant. Il est basé sur Python avec des chemins chauds en HIP/C++, utilisant des bibliothèques AMD natives comme hipBLASLt, hipGraph et AOTriton. Pas de dépendance lourde à PyTorch.

Matériel cible

  • gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo également supporté.

Benchmarks vs llama.cpp

Sur Qwen 3.6 35B MoE (avec ParoQuant 4.68 bpw et GGUF Q4_K_S), hipEngine égale ou dépasse llama.cpp HIP et Vulkan à toutes les longueurs de contexte testées (512–128K). Chiffres clés (tok/s en préremplissage, 512 prompt / 128 génération) :

  • hipEngine PARO : 2718,497 tok/s
  • hipEngine GGUF Q4_K_S : 2258,847 tok/s
  • llama.cpp HIP : 2436,049 tok/s
  • llama.cpp Vulkan : 1816,927 tok/s

À 128K de contexte, le préremplissage de hipEngine PARO atteint 1055 tok/s contre 710 tok/s pour llama.cpp HIP — soit une amélioration de 48 %. Les tok/s en décodage sont comparables (plage de 60–127 tok/s).

Ad

Efficacité mémoire

hipEngine utilise un cache KV INT8 quasi sans perte et sans presque aucun impact sur la vitesse. Cela permet d'exécuter la fenêtre de contexte complète de 256K de Qwen 3.6 en moins de 24 Go sur une seule 7900 XTX :

  • Contexte 128K, KV BF16 : pic échantillonné à 21,04 Gio, préremplissage 1091,9 tok/s, décodage 62,2 tok/s
  • Contexte 128K, KV INT8 : pic échantillonné à 19,80 Gio, préremplissage 1076,5 tok/s, décodage 60,0 tok/s
  • Mémoire maximale à 128K (hipEngine PARO) : 22,122 Gio contre 23,605 Gio pour llama.cpp HIP

Fonctionnalités

  • Open source sous AGPLv3
  • Natif ROCm, sans dépendance à PyTorch dans le chemin chaud
  • Utilise hipBLASLt, hipGraph, AOTriton
  • ParoQuant porté vers ROCm
  • Cache KV INT8 (quasi sans perte, impact minime sur la vitesse)
  • Prend en charge les modèles Qwen 3.6 MoE et denses

Si vous exécutez Qwen 3.6 sur du matériel RDNA3, hipEngine mérite le détour — en particulier pour les cas d'utilisation de contexte 256K limités en mémoire.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

MCP permet à Claude d'analyser automatiquement les données de Google Search Console
Tools

MCP permet à Claude d'analyser automatiquement les données de Google Search Console

Un nouveau MCP gratuit connecte Claude directement à Google Search Console, permettant d'interroger en langage naturel les données de performance de recherche comme les requêtes, les pages, les clics et le CTR, sans export CSV manuel.

OpenClawRadar
Comparaison de RunLobster par rapport aux solutions OpenClaw hébergées
Tools

Comparaison de RunLobster par rapport aux solutions OpenClaw hébergées

Un développeur a testé RunLobster contre KiwiClaw, xCloud et OpenClaw auto-hébergé pendant 2 semaines chacun. RunLobster diffère fondamentalement en tant que produit plutôt que simplement un hébergement, avec 3 000 intégrations en un clic et une mémoire qui se construit au fil du temps.

OpenClawRadar
Test pratique du modèle de Tencent : performant pour les workflows agents, faible pour le codage complexe
Tools

Test pratique du modèle de Tencent : performant pour les workflows agents, faible pour le codage complexe

Le modèle de Tencent obtient un 8/10 pour les tâches agentiques avec un faible taux d'hallucination, mais échoue sur le code complexe comme les schémas de l'API Notion. À éviter pour la logique backend.

OpenClawRadar
Plugins OpenClaw essentiels pour les développeurs utilisant des agents de codage IA
Tools

Plugins OpenClaw essentiels pour les développeurs utilisant des agents de codage IA

Un développeur a testé des plugins OpenClaw et a identifié des outils essentiels, notamment env-guard pour la sécurité, commit-guard pour empêcher les mauvais commits, composio pour se connecter à plus de 860 outils, cortex-memory pour les sessions longues, cost-tracker pour la visibilité des dépenses, et openclaw-better-gateway pour corriger les connexions instables.

OpenClawRadar