hipEngine: Inferencia Rápida Nativa de Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)

✍️ OpenClawRadar📅 Publicado: 25 de mayo de 2026🔗 Source
hipEngine: Inferencia Rápida Nativa de Qwen 3.6 para RDNA3 (Strix Halo, 7900 XTX)
Ad

Ha aparecido un nuevo motor de inferencia nativo de ROCm para modelos MoE y densos de Qwen 3.6: hipEngine, del desarrollador detrás de FastDMS y ParoQuant. Está basado en Python con rutas críticas en HIP/C++, utilizando librerías nativas de AMD como hipBLASLt, hipGraph y AOTriton. Sin dependencia pesada de PyTorch.

Hardware objetivo

  • gfx1100 — Radeon RX 7900 XTX / Radeon Pro W7900 (RDNA3). Strix Halo también compatible.

Comparativas vs llama.cpp

En Qwen 3.6 35B MoE (usando ParoQuant 4.68 bpw y GGUF Q4_K_S), hipEngine iguala o supera a llama.cpp HIP y Vulkan en todas las longitudes de contexto probadas (512–128K). Números clave (tok/s de prefill, 512 prompt / 128 gen):

  • hipEngine PARO: 2718.497 tok/s
  • hipEngine GGUF Q4_K_S: 2258.847 tok/s
  • llama.cpp HIP: 2436.049 tok/s
  • llama.cpp Vulkan: 1816.927 tok/s

Con contexto de 128K, hipEngine PARO alcanza 1055 tok/s de prefill frente a los 710 tok/s de llama.cpp HIP, una mejora del 48%. Los tok/s de decodificación son similares (rango de 60–127 tok/s).

Ad

Eficiencia de memoria

hipEngine usa caché KV INT8 casi sin pérdidas y prácticamente sin penalización de velocidad. Esto permite ejecutar la ventana de contexto completa de 256K de Qwen 3.6 en menos de 24 GB en una sola 7900 XTX:

  • Contexto 128K, KV BF16: pico muestreado 21.04 GiB, prefill 1091.9 tok/s, decodificación 62.2 tok/s
  • Contexto 128K, KV INT8: pico muestreado 19.80 GiB, prefill 1076.5 tok/s, decodificación 60.0 tok/s
  • Pico de memoria a 128K (hipEngine PARO): 22.122 GiB vs llama.cpp HIP 23.605 GiB

Características

  • Código abierto AGPLv3
  • Nativo ROCm, sin dependencia de PyTorch en rutas críticas
  • Usa hipBLASLt, hipGraph, AOTriton
  • ParoQuant portado a ROCm
  • Caché KV INT8 (casi sin pérdidas, impacto mínimo en velocidad)
  • Compatible con modelos MoE y densos de Qwen 3.6

Si estás ejecutando Qwen 3.6 en hardware RDNA3, vale la pena echarle un vistazo a hipEngine, especialmente para casos de uso con contexto de 256K con limitaciones de memoria.

📖 Lee la fuente original: r/LocalLLaMA

Ad

👀 Ver también

Claude-IDE-Bridge Ahora Funciona en Servidores Remotos para Desarrollo Asistido por IA
Herramientas

Claude-IDE-Bridge Ahora Funciona en Servidores Remotos para Desarrollo Asistido por IA

La herramienta Claude-IDE-Bridge ahora conecta Claude AI con entornos de desarrollo remotos en VPS o máquinas en la nube, permitiendo el acceso a diagnósticos en vivo, archivos abiertos y fallos de pruebas desde cualquier dispositivo.

OpenClawRadar
Seis herramientas de código abierto que abordan los problemas de seguridad, costo y complejidad de OpenClaw
Herramientas

Seis herramientas de código abierto que abordan los problemas de seguridad, costo y complejidad de OpenClaw

Un desarrollador probó seis herramientas comunitarias para solucionar las brechas de seguridad de OpenClaw señaladas por Cisco, los costos en espiral y la configuración compleja. ClawSec proporciona escaneo de seguridad y verificación de integridad, Antfarm habilita flujos de trabajo multiagente deterministas, y LanceDB Pro mejora la recuperación de memoria con búsqueda vectorial híbrida.

OpenClawRadar
🦀
Herramientas

Servidor MCP de TextExpander permite que Claude AI acceda y gestione tu biblioteca de fragmentos

TextExpander lanzó un servidor MCP gratuito que conecta tu biblioteca de snippets con Claude. Claude puede listar, buscar, crear y editar snippets en bloque, incluyendo campos dinámicos como fechas y menús desplegables.

OpenClawRadar
Resultados del Benchmark de Pruebas APEX: Rendimiento de Qwen 3.5 en Tareas de Programación Reales
Herramientas

Resultados del Benchmark de Pruebas APEX: Rendimiento de Qwen 3.5 en Tareas de Programación Reales

Los resultados del benchmark APEX Testing muestran el rendimiento de los modelos Qwen 3.5 en 70 tareas de programación reales de GitHub, con la versión de 397B cayendo a 1194 ELO en tareas de nivel maestro, mientras que GLM-4.7 cuantizado lidera los modelos locales con 1572 ELO.

OpenClawRadar