hipEngine: RDNA3용 빠른 네이티브 Qwen 3.6 추론 (Strix Halo, 7900 XTX)

✍️ OpenClawRadar📅 게시일: May 25, 2026🔗 Source
hipEngine: RDNA3용 빠른 네이티브 Qwen 3.6 추론 (Strix Halo, 7900 XTX)
Ad

Qwen 3.6 MoE 및 밀집 모델을 위한 새로운 ROCm 네이티브 추론 엔진인 hipEngine이 등장했습니다. FastDMS와 ParoQuant의 개발자가 제작했으며, Python 기반에 핫 패스는 HIP/C++로 작성되어 AMD 네이티브 라이브러리(hipBLASLt, hipGraph, AOTriton)를 사용합니다. 무거운 PyTorch 의존성이 없습니다.

대상 하드웨어

  • gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo도 지원.

llama.cpp 대비 벤치마크

Qwen 3.6 35B MoE(ParoQuant 4.68 bpw 및 GGUF Q4_K_S 사용)에서 hipEngine은 모든 테스트 컨텍스트 길이(512–128K)에서 llama.cpp HIP 및 Vulkan과 동등하거나 더 나은 성능을 보입니다. 주요 수치(프리필 tok/s, 512 프롬프트 / 128 생성):

  • hipEngine PARO: 2718.497 tok/s
  • hipEngine GGUF Q4_K_S: 2258.847 tok/s
  • llama.cpp HIP: 2436.049 tok/s
  • llama.cpp Vulkan: 1816.927 tok/s

128K 컨텍스트에서 hipEngine PARO 프리필은 1055 tok/s로, llama.cpp HIP의 710 tok/s보다 48% 향상되었습니다. 디코드 tok/s는 비슷합니다(60–127 tok/s 범위).

Ad

메모리 효율성

hipEngine은 거의 손실 없는 INT8 KV 캐시를 사용하며 속도 저하가 거의 없습니다. 이를 통해 단일 7900 XTX에서 24GB 미만으로 Qwen 3.6의 256K 컨텍스트 윈도우를 실행할 수 있습니다:

  • 128K 컨텍스트, BF16 KV: 샘플 최고 21.04 GiB, 프리필 1091.9 tok/s, 디코드 62.2 tok/s
  • 128K 컨텍스트, INT8 KV: 샘플 최고 19.80 GiB, 프리필 1076.5 tok/s, 디코드 60.0 tok/s
  • 128K에서 최대 메모리 (hipEngine PARO): 22.122 GiB vs llama.cpp HIP 23.605 GiB

기능

  • AGPLv3 오픈소스
  • ROCm 네이티브, 핫 패스에 PyTorch 의존성 없음
  • hipBLASLt, hipGraph, AOTriton 사용
  • ParoQuant를 ROCm에 이식
  • INT8 KV 캐시 (거의 손실 없음, 속도 영향 최소화)
  • Qwen 3.6 MoE 및 밀집 모델 지원

RDNA3 하드웨어에서 Qwen 3.6을 실행 중이라면, 특히 메모리가 제한된 256K 컨텍스트 사용 사례에서 hipEngine을 살펴볼 가치가 있습니다.

📖 원문 보기: r/LocalLLaMA

Ad

👀 See Also

라이벌-리뷰: AI 에이전트 계획을 위한 교차 모델 검토 루프
Tools

라이벌-리뷰: AI 에이전트 계획을 위한 교차 모델 검토 루프

Rival-review는 MIT 라이선스 도구로, 실행 전에 기본 AI 코딩 에이전트의 계획을 감사하기 위해 두 번째 AI 모델을 사용하여 결함 있는 롤백 계획, 보안 허점, 오래된 상태 결정과 같은 문제를 포착합니다.

OpenClawRadar
MemRosetta는 한 줄 명령어 설정으로 Claude Code에 영구 메모리를 추가합니다.
Tools

MemRosetta는 한 줄 명령어 설정으로 Claude Code에 영구 메모리를 추가합니다.

MemRosetta v0.2.4는 단일 npm 설치 명령으로 Claude Code에 세션 간 메모리를 제공합니다. 이 도구에는 6개의 메모리 도구가 있는 MCP 서버, 자동 세션 캡처, Cursor와 공유할 수 있는 로컬 SQLite 저장소가 포함되어 있습니다.

OpenClawRadar
로컬 딥 리서치 도구 현황: GPT 리서처와 로컬 딥 리서치가 선도, STORM과 랭체인 프로젝트는 정체
Tools

로컬 딥 리서치 도구 현황: GPT 리서처와 로컬 딥 리서치가 선도, STORM과 랭체인 프로젝트는 정체

2026년 5월 기준 Reddit의 로컬 딥 리서치 프로젝트 설문조사에서 GPT Researcher와 LearningCircuit의 Local Deep Research가 가장 활발하고, STORM과 LangChain의 Open Deep Research는 버려졌거나 반쯤 버려진 것으로 나타났습니다.

OpenClawRadar
ByteRover 메모리 플러그인 for OpenClaw: 시맨틱 계층 구조와의 네이티브 통합
Tools

ByteRover 메모리 플러그인 for OpenClaw: 시맨틱 계층 구조와의 네이티브 통합

ByteRover 메모리 플러그인 for OpenClaw는 Markdown 파일에 저장된 3계층 아키텍처와 의미 계층을 통해 네이티브, 구조화된 장기 메모리를 제공합니다. 92.2%의 검색 정확도를 달성하며 OpenClaw v2026.3.22+ 이상이 필요합니다.

OpenClawRadar