hipEngine: Schnelle native Qwen 3.6-Inferenz für RDNA3 (Strix Halo, 7900 XTX)

Eine neue ROCm-native Inferenz-Engine für Qwen 3.6 MoE und dichte Modelle ist erschienen: hipEngine vom Entwickler hinter FastDMS und ParoQuant. Es ist in Python geschrieben mit Hot Paths in HIP/C++ und verwendet native AMD Bibliotheken wie hipBLASLt, hipGraph und AOTriton. Keine schwere PyTorch-Abhängigkeit.
Zielhardware
gfx1100— Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo wird ebenfalls unterstützt.
Benchmarks vs. llama.cpp
Auf Qwen 3.6 35B MoE (mit ParoQuant 4.68 bpw und GGUF Q4_K_S) erreicht oder übertrifft hipEngine llama.cpp HIP und Vulkan bei allen getesteten Kontextlängen (512–128K). Wichtige Zahlen (Prefill tok/s, 512 Prompt / 128 Gen):
- hipEngine PARO: 2718.497 tok/s
- hipEngine GGUF Q4_K_S: 2258.847 tok/s
- llama.cpp HIP: 2436.049 tok/s
- llama.cpp Vulkan: 1816.927 tok/s
Bei 128K Kontext erreicht hipEngine PARO Prefill 1055 tok/s vs. llama.cpp HIP 710 tok/s — eine Verbesserung um 48%. Decode tok/s sind vergleichbar (Bereich 60–127 tok/s).
Speichereffizienz
hipEngine verwendet einen nahezu verlustfreien INT8 KV Cache mit fast keinem Geschwindigkeitsnachteil. Dadurch kann das gesamte Qwen 3.6 256K Kontextfenster in unter 24 GB auf einer einzelnen 7900 XTX ausgeführt werden:
- 128K Kontext, BF16 KV: gemessener Spitzenwert 21,04 GiB, Prefill 1091,9 tok/s, Decode 62,2 tok/s
- 128K Kontext, INT8 KV: gemessener Spitzenwert 19,80 GiB, Prefill 1076,5 tok/s, Decode 60,0 tok/s
- Spitzenspeicher bei 128K (hipEngine PARO): 22,122 GiB vs. llama.cpp HIP 23,605 GiB
Funktionen
- AGPLv3 Open Source
- ROCm-nativ, keine PyTorch-Abhängigkeit im Hot Path
- Verwendet hipBLASLt, hipGraph, AOTriton
- ParoQuant auf ROCm portiert
- INT8 KV Cache (nahezu verlustfrei, minimale Geschwindigkeitsauswirkung)
- Unterstützt Qwen 3.6 MoE und dichte Modelle
Wenn Sie Qwen 3.6 auf RDNA3-Hardware betreiben, ist hipEngine einen Blick wert — besonders für speicherbegrenzte 256K-Kontext-Anwendungsfälle.
📖 Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Chrome-Erweiterung fügt Live-Vorschau zur Claude-Code-Webseite hinzu
Eine Chrome-Erweiterung namens Claude Code Preview fügt Claude Code Web eine Live-Vorschaufunktion hinzu, ähnlich wie bei Lovable und anderen 'Vibecoding'-Websites, und ermöglicht so die nebeneinander angezeigte Betrachtung von Bereitstellungen.

Eden AI: Europäischer API-Hub für KI-Modelle – Positioniert sich als OpenRouter-Alternative
Eden AI bietet eine einzige, einheitliche API, um auf über 500 KI-Modelle (LLMs, Bildverarbeitung, OCR, Sprache) zuzugreifen – mit intelligentem Routing, Fallback-Mechanismen und Regionskontrolle. Positioniert als europäische Alternative zu OpenRouter.

Senden Sie OpenClaw-Agenten als Meeting-Teilnehmer mit Sprache, Chat und Bildschirmfreigabe
Ein neues Skill ermöglicht es OpenClaw-Agenten, Google Meet, Teams und Zoom als vollwertige Teilnehmer mit Sprachfunktion (STT/TTS), Chat, Video-Avatar und Bildschirmfreigabe zu nutzen.

Projekt-Ledger: Mensch-im-Loop-Gedächtnissystem für KI-Coding-Agenten
Ein GitHub-Projekt stellt ein YAML-basiertes Ledger-System vor, in dem Menschen kuratieren, woran KI-Agenten über Codebasen erinnert werden. Es umfasst eine /ledger-Fähigkeit, einen UserPromptSubmit-Hook für automatische Kontextinjektion und eine Haiku-Auditor-Überprüfung.