hipEngine: Inferência Nativa Rápida do Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)

✍️ OpenClawRadar📅 Publicado: May 25, 2026🔗 Source
hipEngine: Inferência Nativa Rápida do Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)
Ad

Um novo mecanismo de inferência nativo ROCm para modelos MoE e densos Qwen 3.6 surgiu: hipEngine, do desenvolvedor por trás do FastDMS e ParoQuant. É baseado em Python com caminhos críticos em HIP/C++, usando bibliotecas nativas da AMD como hipBLASLt, hipGraph e AOTriton. Sem dependência pesada do PyTorch.

Hardware Alvo

  • gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo também suportado.

Benchmarks vs llama.cpp

No Qwen 3.6 35B MoE (usando ParoQuant 4,68 bpw e GGUF Q4_K_S), o hipEngine iguala ou supera o llama.cpp HIP e Vulkan em todos os tamanhos de contexto testados (512–128K). Números principais (prefill tok/s, 512 prompt / 128 geração):

  • hipEngine PARO: 2718,497 tok/s
  • hipEngine GGUF Q4_K_S: 2258,847 tok/s
  • llama.cpp HIP: 2436,049 tok/s
  • llama.cpp Vulkan: 1816,927 tok/s

No contexto de 128K, o prefill do hipEngine PARO atinge 1055 tok/s contra 710 tok/s do llama.cpp HIP — uma melhoria de 48%. Os tok/s de decodificação são comparáveis (faixa de 60–127 tok/s).

Ad

Eficiência de Memória

O hipEngine usa cache KV INT8 quase sem perdas e com quase nenhuma penalidade de velocidade. Isso permite executar a janela de contexto completa de 256K do Qwen 3.6 em menos de 24 GB em uma única 7900 XTX:

  • Contexto 128K, KV BF16: pico amostrado 21,04 GiB, prefill 1091,9 tok/s, decode 62,2 tok/s
  • Contexto 128K, KV INT8: pico amostrado 19,80 GiB, prefill 1076,5 tok/s, decode 60,0 tok/s
  • Pico de memória em 128K (hipEngine PARO): 22,122 GiB vs llama.cpp HIP 23,605 GiB

Recursos

  • Código aberto AGPLv3
  • Nativo ROCm, sem dependência do PyTorch no caminho crítico
  • Usa hipBLASLt, hipGraph, AOTriton
  • ParoQuant portado para ROCm
  • Cache KV INT8 (quase sem perdas, impacto mínimo na velocidade)
  • Suporta modelos MoE e densos Qwen 3.6

Se você está executando o Qwen 3.6 em hardware RDNA3, vale a pena dar uma olhada no hipEngine — especialmente para casos de uso com contexto de 256K com restrição de memória.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Rivet Actors adiciona armazenamento SQLite: um banco de dados por agente, locatário ou documento
Tools

Rivet Actors adiciona armazenamento SQLite: um banco de dados por agente, locatário ou documento

Os Rivet Actors agora suportam armazenamento SQLite, onde cada ator recebe seu próprio banco de dados SQLite, permitindo milhões de bancos de dados independentes para agentes de IA, SaaS multi-inquilino, documentos colaborativos ou isolamento por usuário.

OpenClawRadar
Loop de Revisão Intermodelo para Agentes de Codificação de IA Detecta Falhas Críticas de Planejamento
Tools

Loop de Revisão Intermodelo para Agentes de Codificação de IA Detecta Falhas Críticas de Planejamento

Um desenvolvedor criou um sistema de revisão entre modelos onde um segundo modelo de IA analisa planos de agentes de codificação antes da execução, identificando falhas críticas como falhas de reversão e brechas de segurança. A ferramenta é licenciada sob MIT e inclui um painel TUI.

OpenClawRadar
ClawHost Open-Source OpenClaw Implantação com Um Clique Atinge Mais de 200 Estrelas no GitHub
Tools

ClawHost Open-Source OpenClaw Implantação com Um Clique Atinge Mais de 200 Estrelas no GitHub

ClawHost, uma ferramenta de código aberto para instalação em um clique do OpenClaw com acesso e controle total do servidor, atingiu mais de 200 estrelas no GitHub. O projeto aborda problemas com wrappers comerciais instáveis, fornecendo uma solução gratuita e auto-hospedável.

OpenClawRadar
Abordagem de Debate Multi-Agente Melhora a Qualidade do Raciocínio em LLM
Tools

Abordagem de Debate Multi-Agente Melhora a Qualidade do Raciocínio em LLM

Um desenvolvedor experimentou uma abordagem de debate multiagente usando o CyrcloAI, onde diferentes agentes de IA assumem papéis como analista, crítico e sintetizador para criticar as respostas uns dos outros antes de produzir uma resposta final, resultando em saídas mais estruturadas e deliberadas.

OpenClawRadar