Hypura: Ejecuta LLMs de 70B en Mac Mini a 2.2 tok/s

Qué hace Hypura

Hypura es un planificador de inferencia para LLM consciente de los niveles de almacenamiento en Apple Silicon, que distribuye los tensores del modelo entre las capas de GPU, RAM y NVMe según los patrones de acceso, los costos de ancho de banda y las capacidades del hardware. Esto permite ejecutar modelos que exceden la memoria física sin que el sistema falle.

Características clave y cómo funciona

Hypura lee archivos GGUF, perfila tu hardware (conjunto de trabajo de la GPU, RAM, ancho de banda de NVMe) y resuelve una optimización de ubicación que asigna cada tensor a un nivel:

GPU (Metal) — Capas de atención, normalizaciones, incrustaciones
RAM — Capas que no caben en el conjunto de trabajo de la GPU, accedidas mediante mmap
NVMe — Capas restantes cargadas bajo demanda mediante E/S directa (F_NOCACHE + pread), precargadas antes del paso hacia adelante

Para modelos MoE como Mixtral, Hypura implementa transmisión de expertos: solo los tensores no expertos (~1 GB) permanecen en la GPU, mientras que los tensores expertos se transmiten desde NVMe a través de un búfer de grupo bajo demanda. Incluye una caché de neuronas con una tasa de acierto del 99.5% que elimina la mayoría de las E/S después del calentamiento, intercepción del enrutador para identificar los expertos seleccionados y seguimiento de coactivación para predecir qué expertos se activarán a continuación para la precarga especulativa.

Para modelos densos como Llama 70B, utiliza transmisión densa de FFN: la atención y las normalizaciones permanecen en la GPU (~8 GB) mientras que los tensores de FFN (~32 GB) se transmiten desde NVMe a través de un búfer de grupo de tamaño dinámico con precarga escalada anticipada.

Puntos de referencia de rendimiento

Todos los puntos de referencia en M1 Max, 32 GB de memoria unificada, ~5.1 GB/s de lectura secuencial en NVMe:

Qwen 2.5 14B Q4_K_M (8.4 GB): Modo residente completo, 21 tok/s (igual que llama.cpp)
Mixtral 8x7B Q5_K_M (30.9 GB): Modo de transmisión de expertos, 2.2 tok/s (llama.cpp sin memoria)
Llama 3.3 70B Q4_K_M (39.6 GB): Modo de transmisión densa de FFN, 0.3 tok/s (llama.cpp sin memoria)

El tamaño del búfer de grupo, la profundidad de precarga y los presupuestos de memoria se calculan automáticamente a partir del perfil de tu hardware; no se requiere ajuste manual.

Instalación

Hypura se compila desde el código fuente con Cargo. Necesitarás Rust 1.75+ y CMake.

📖 Read the full source: HN AI Agents

Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon

Qué hace Hypura

Características clave y cómo funciona

Puntos de referencia de rendimiento

Instalación

👀 Ver también

Brain-MCP Documentos de Desarrollo Herramientas para Claude IA en Lugar de Humanos

Brackish: Deja que dos instancias de Claude Code negocien un contrato API mediante OpenAPI 3.1

OpenClaw PARA organiza automáticamente los archivos del asistente de IA.

Pali v0.1: Infraestructura de Memoria de Código Abierto para LLMs con Puntos de Referencia Reproducibles