hipEngine: RDNA3에서 Qwen 3.6 추론

Qwen 3.6 MoE 및 밀집 모델을 위한 새로운 ROCm 네이티브 추론 엔진인 hipEngine이 등장했습니다. FastDMS와 ParoQuant의 개발자가 제작했으며, Python 기반에 핫 패스는 HIP/C++로 작성되어 AMD 네이티브 라이브러리(hipBLASLt, hipGraph, AOTriton)를 사용합니다. 무거운 PyTorch 의존성이 없습니다.

대상 하드웨어

gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo도 지원.

llama.cpp 대비 벤치마크

Qwen 3.6 35B MoE(ParoQuant 4.68 bpw 및 GGUF Q4_K_S 사용)에서 hipEngine은 모든 테스트 컨텍스트 길이(512–128K)에서 llama.cpp HIP 및 Vulkan과 동등하거나 더 나은 성능을 보입니다. 주요 수치(프리필 tok/s, 512 프롬프트 / 128 생성):

hipEngine PARO: 2718.497 tok/s
hipEngine GGUF Q4_K_S: 2258.847 tok/s
llama.cpp HIP: 2436.049 tok/s
llama.cpp Vulkan: 1816.927 tok/s

128K 컨텍스트에서 hipEngine PARO 프리필은 1055 tok/s로, llama.cpp HIP의 710 tok/s보다 48% 향상되었습니다. 디코드 tok/s는 비슷합니다(60–127 tok/s 범위).

메모리 효율성

hipEngine은 거의 손실 없는 INT8 KV 캐시를 사용하며 속도 저하가 거의 없습니다. 이를 통해 단일 7900 XTX에서 24GB 미만으로 Qwen 3.6의 256K 컨텍스트 윈도우를 실행할 수 있습니다:

128K 컨텍스트, BF16 KV: 샘플 최고 21.04 GiB, 프리필 1091.9 tok/s, 디코드 62.2 tok/s
128K 컨텍스트, INT8 KV: 샘플 최고 19.80 GiB, 프리필 1076.5 tok/s, 디코드 60.0 tok/s
128K에서 최대 메모리 (hipEngine PARO): 22.122 GiB vs llama.cpp HIP 23.605 GiB

기능

AGPLv3 오픈소스
ROCm 네이티브, 핫 패스에 PyTorch 의존성 없음
hipBLASLt, hipGraph, AOTriton 사용
ParoQuant를 ROCm에 이식
INT8 KV 캐시 (거의 손실 없음, 속도 영향 최소화)
Qwen 3.6 MoE 및 밀집 모델 지원

RDNA3 하드웨어에서 Qwen 3.6을 실행 중이라면, 특히 메모리가 제한된 256K 컨텍스트 사용 사례에서 hipEngine을 살펴볼 가치가 있습니다.

📖 원문 보기: r/LocalLLaMA

hipEngine: RDNA3용 빠른 네이티브 Qwen 3.6 추론 (Strix Halo, 7900 XTX)

대상 하드웨어

llama.cpp 대비 벤치마크

메모리 효율성

기능

👀 See Also

OpenClaw Codex-GPT5.4 작업 검증 루프 문제

AI 코딩 도구 분석: 3,177개의 API 호출 해부하기

Spec27: AI 에이전트를 위한 스펙 기반 검증 – 내부 접근 없이 API 레벨 테스트

ClawDeckX: 오픈소스 macOS 스타일 웹 플랫폼으로 OpenClaw 에이전트 관리