hipEngine: Inferencia Qwen 3.6 en RDNA3

Ha aparecido un nuevo motor de inferencia nativo de ROCm para modelos MoE y densos de Qwen 3.6: hipEngine, del desarrollador detrás de FastDMS y ParoQuant. Está basado en Python con rutas críticas en HIP/C++, utilizando librerías nativas de AMD como hipBLASLt, hipGraph y AOTriton. Sin dependencia pesada de PyTorch.

Hardware objetivo

gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo también compatible.

Comparativas vs llama.cpp

En Qwen 3.6 35B MoE (usando ParoQuant 4.68 bpw y GGUF Q4_K_S), hipEngine iguala o supera a llama.cpp HIP y Vulkan en todas las longitudes de contexto probadas (512–128K). Números clave (tok/s de prefill, 512 prompt / 128 gen):

hipEngine PARO: 2718.497 tok/s
hipEngine GGUF Q4_K_S: 2258.847 tok/s
llama.cpp HIP: 2436.049 tok/s
llama.cpp Vulkan: 1816.927 tok/s

Con contexto de 128K, hipEngine PARO alcanza 1055 tok/s de prefill frente a los 710 tok/s de llama.cpp HIP, una mejora del 48%. Los tok/s de decodificación son similares (rango de 60–127 tok/s).

Eficiencia de memoria

hipEngine usa caché KV INT8 casi sin pérdidas y prácticamente sin penalización de velocidad. Esto permite ejecutar la ventana de contexto completa de 256K de Qwen 3.6 en menos de 24 GB en una sola 7900 XTX:

Contexto 128K, KV BF16: pico muestreado 21.04 GiB, prefill 1091.9 tok/s, decodificación 62.2 tok/s
Contexto 128K, KV INT8: pico muestreado 19.80 GiB, prefill 1076.5 tok/s, decodificación 60.0 tok/s
Pico de memoria a 128K (hipEngine PARO): 22.122 GiB vs llama.cpp HIP 23.605 GiB

Características

Código abierto AGPLv3
Nativo ROCm, sin dependencia de PyTorch en rutas críticas
Usa hipBLASLt, hipGraph, AOTriton
ParoQuant portado a ROCm
Caché KV INT8 (casi sin pérdidas, impacto mínimo en velocidad)
Compatible con modelos MoE y densos de Qwen 3.6

Si estás ejecutando Qwen 3.6 en hardware RDNA3, vale la pena echarle un vistazo a hipEngine, especialmente para casos de uso con contexto de 256K con limitaciones de memoria.

📖 Lee la fuente original: r/LocalLLaMA

hipEngine: Inferencia Rápida Nativa de Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)

Hardware objetivo

Comparativas vs llama.cpp

Eficiencia de memoria

Características

👀 Ver también

Rivet Actors agrega almacenamiento SQLite: una base de datos por agente, inquilino o documento.

Análisis de los Componentes Reutilizables de Go de Ollama para el Desarrollo de LLM Locales

OpenClaw-WebTop: Ejecuta OpenClaw con Ollama y Ubuntu Desktop en GitHub Codespaces

El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens