hipEngine: Qwen 3.6 Inferenz auf RDNA3

Eine neue ROCm-native Inferenz-Engine für Qwen 3.6 MoE und dichte Modelle ist erschienen: hipEngine vom Entwickler hinter FastDMS und ParoQuant. Es ist in Python geschrieben mit Hot Paths in HIP/C++ und verwendet native AMD Bibliotheken wie hipBLASLt, hipGraph und AOTriton. Keine schwere PyTorch-Abhängigkeit.

Zielhardware

gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo wird ebenfalls unterstützt.

Benchmarks vs. llama.cpp

Auf Qwen 3.6 35B MoE (mit ParoQuant 4.68 bpw und GGUF Q4_K_S) erreicht oder übertrifft hipEngine llama.cpp HIP und Vulkan bei allen getesteten Kontextlängen (512–128K). Wichtige Zahlen (Prefill tok/s, 512 Prompt / 128 Gen):

hipEngine PARO: 2718.497 tok/s
hipEngine GGUF Q4_K_S: 2258.847 tok/s
llama.cpp HIP: 2436.049 tok/s
llama.cpp Vulkan: 1816.927 tok/s

Bei 128K Kontext erreicht hipEngine PARO Prefill 1055 tok/s vs. llama.cpp HIP 710 tok/s — eine Verbesserung um 48%. Decode tok/s sind vergleichbar (Bereich 60–127 tok/s).

Speichereffizienz

hipEngine verwendet einen nahezu verlustfreien INT8 KV Cache mit fast keinem Geschwindigkeitsnachteil. Dadurch kann das gesamte Qwen 3.6 256K Kontextfenster in unter 24 GB auf einer einzelnen 7900 XTX ausgeführt werden:

128K Kontext, BF16 KV: gemessener Spitzenwert 21,04 GiB, Prefill 1091,9 tok/s, Decode 62,2 tok/s
128K Kontext, INT8 KV: gemessener Spitzenwert 19,80 GiB, Prefill 1076,5 tok/s, Decode 60,0 tok/s
Spitzenspeicher bei 128K (hipEngine PARO): 22,122 GiB vs. llama.cpp HIP 23,605 GiB