hipEngine: Inferência Qwen 3.6 em RDNA3

Um novo mecanismo de inferência nativo ROCm para modelos MoE e densos Qwen 3.6 surgiu: hipEngine, do desenvolvedor por trás do FastDMS e ParoQuant. É baseado em Python com caminhos críticos em HIP/C++, usando bibliotecas nativas da AMD como hipBLASLt, hipGraph e AOTriton. Sem dependência pesada do PyTorch.

Hardware Alvo

gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo também suportado.

Benchmarks vs llama.cpp

No Qwen 3.6 35B MoE (usando ParoQuant 4,68 bpw e GGUF Q4_K_S), o hipEngine iguala ou supera o llama.cpp HIP e Vulkan em todos os tamanhos de contexto testados (512–128K). Números principais (prefill tok/s, 512 prompt / 128 geração):

hipEngine PARO: 2718,497 tok/s
hipEngine GGUF Q4_K_S: 2258,847 tok/s
llama.cpp HIP: 2436,049 tok/s
llama.cpp Vulkan: 1816,927 tok/s

No contexto de 128K, o prefill do hipEngine PARO atinge 1055 tok/s contra 710 tok/s do llama.cpp HIP — uma melhoria de 48%. Os tok/s de decodificação são comparáveis (faixa de 60–127 tok/s).

Eficiência de Memória

O hipEngine usa cache KV INT8 quase sem perdas e com quase nenhuma penalidade de velocidade. Isso permite executar a janela de contexto completa de 256K do Qwen 3.6 em menos de 24 GB em uma única 7900 XTX:

Contexto 128K, KV BF16: pico amostrado 21,04 GiB, prefill 1091,9 tok/s, decode 62,2 tok/s
Contexto 128K, KV INT8: pico amostrado 19,80 GiB, prefill 1076,5 tok/s, decode 60,0 tok/s
Pico de memória em 128K (hipEngine PARO): 22,122 GiB vs llama.cpp HIP 23,605 GiB

Recursos

Código aberto AGPLv3
Nativo ROCm, sem dependência do PyTorch no caminho crítico
Usa hipBLASLt, hipGraph, AOTriton
ParoQuant portado para ROCm
Cache KV INT8 (quase sem perdas, impacto mínimo na velocidade)
Suporta modelos MoE e densos Qwen 3.6

Se você está executando o Qwen 3.6 em hardware RDNA3, vale a pena dar uma olhada no hipEngine — especialmente para casos de uso com contexto de 256K com restrição de memória.

📖 Leia a fonte completa: r/LocalLLaMA

hipEngine: Inferência Nativa Rápida do Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)

Hardware Alvo

Benchmarks vs llama.cpp

Eficiência de Memória

Recursos

👀 See Also

Cortex: Uma Camada de Memória Local para Agentes OpenClaw com Decaimento de Ebbinghaus

Monitor de Uso do Claude: Widget CRT Flutuante para Windows

Claude Code LSP: Habilitando o Protocolo de Servidor de Linguagem para Navegação de Código Mais Rápida e Precis

Redutor de Tokens: Um Plugin de Código Claude para Compressão Inteligente de Contexto