Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon

✍️ OpenClawRadar📅 Publicado: 24 de marzo de 2026🔗 Source
Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon
Ad

Qué hace Hypura

Hypura es un planificador de inferencia para LLM consciente de los niveles de almacenamiento en Apple Silicon, que distribuye los tensores del modelo entre las capas de GPU, RAM y NVMe según los patrones de acceso, los costos de ancho de banda y las capacidades del hardware. Esto permite ejecutar modelos que exceden la memoria física sin que el sistema falle.

Características clave y cómo funciona

Hypura lee archivos GGUF, perfila tu hardware (conjunto de trabajo de la GPU, RAM, ancho de banda de NVMe) y resuelve una optimización de ubicación que asigna cada tensor a un nivel:

  • GPU (Metal) — Capas de atención, normalizaciones, incrustaciones
  • RAM — Capas que no caben en el conjunto de trabajo de la GPU, accedidas mediante mmap
  • NVMe — Capas restantes cargadas bajo demanda mediante E/S directa (F_NOCACHE + pread), precargadas antes del paso hacia adelante

Para modelos MoE como Mixtral, Hypura implementa transmisión de expertos: solo los tensores no expertos (~1 GB) permanecen en la GPU, mientras que los tensores expertos se transmiten desde NVMe a través de un búfer de grupo bajo demanda. Incluye una caché de neuronas con una tasa de acierto del 99.5% que elimina la mayoría de las E/S después del calentamiento, intercepción del enrutador para identificar los expertos seleccionados y seguimiento de coactivación para predecir qué expertos se activarán a continuación para la precarga especulativa.

Para modelos densos como Llama 70B, utiliza transmisión densa de FFN: la atención y las normalizaciones permanecen en la GPU (~8 GB) mientras que los tensores de FFN (~32 GB) se transmiten desde NVMe a través de un búfer de grupo de tamaño dinámico con precarga escalada anticipada.

Ad

Puntos de referencia de rendimiento

Todos los puntos de referencia en M1 Max, 32 GB de memoria unificada, ~5.1 GB/s de lectura secuencial en NVMe:

  • Qwen 2.5 14B Q4_K_M (8.4 GB): Modo residente completo, 21 tok/s (igual que llama.cpp)
  • Mixtral 8x7B Q5_K_M (30.9 GB): Modo de transmisión de expertos, 2.2 tok/s (llama.cpp sin memoria)
  • Llama 3.3 70B Q4_K_M (39.6 GB): Modo de transmisión densa de FFN, 0.3 tok/s (llama.cpp sin memoria)

El tamaño del búfer de grupo, la profundidad de precarga y los presupuestos de memoria se calculan automáticamente a partir del perfil de tu hardware; no se requiere ajuste manual.

Instalación

Hypura se compila desde el código fuente con Cargo. Necesitarás Rust 1.75+ y CMake.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Logseq Brain v0.6.0: El plugin de memoria persistente para Claude Code añade registro de viaje y lecturas dirigidas por sección
Herramientas

Logseq Brain v0.6.0: El plugin de memoria persistente para Claude Code añade registro de viaje y lecturas dirigidas por sección

Logseq Brain v0.6.0 añade un registro de viaje para todas las operaciones, lecturas dirigidas a secciones para ahorrar tokens y divulgación progresiva para archivos de habilidades.

OpenClawRadar
SkyClaw: Runtime de Agente de IA en Rust para VPS en la Nube con Control por Telegram
Herramientas

SkyClaw: Runtime de Agente de IA en Rust para VPS en la Nube con Control por Telegram

SkyClaw es un entorno de ejecución de agentes de IA basado en Rust de 6,9 MB diseñado para implementación en VPS en la nube con Telegram como única interfaz. Ejecuta comandos de shell, navega por la web mediante Chrome sin interfaz gráfica, lee/escribe archivos y obtiene URLs con encadenamiento de herramientas en múltiples rondas.

OpenClawRadar
La Habilidad OpenClaw Conecta a los Agentes con la Interfaz de Usuario de Knods.io para la Creación de Flujos de Trabajo
Herramientas

La Habilidad OpenClaw Conecta a los Agentes con la Interfaz de Usuario de Knods.io para la Creación de Flujos de Trabajo

Un desarrollador ha creado una habilidad de OpenClaw que permite a los agentes comprender y crear flujos de trabajo dentro de la interfaz de usuario de Knods.io, lo que permite a los usuarios cambiar entre agentes específicos, como los específicos de marca, en lugar de depender del agente integrado de Knods.

OpenClawRadar
Repositorio de Plantilla de Código Claude para Aplicaciones Spring Boot
Herramientas

Repositorio de Plantilla de Código Claude para Aplicaciones Spring Boot

Un repositorio de GitHub proporciona una plantilla de Claude Code para generar aplicaciones Spring Boot con mejores prácticas para integración de bases de datos, despliegue en Kubernetes y pruebas de integración usando Testcontainers.

OpenClawRadar