Hypura: Programador de inferencia de LLM consciente del nivel de almacenamiento para Apple Silicon

Qué hace Hypura
Hypura es un planificador de inferencia para LLM consciente de los niveles de almacenamiento en Apple Silicon, que distribuye los tensores del modelo entre las capas de GPU, RAM y NVMe según los patrones de acceso, los costos de ancho de banda y las capacidades del hardware. Esto permite ejecutar modelos que exceden la memoria física sin que el sistema falle.
Características clave y cómo funciona
Hypura lee archivos GGUF, perfila tu hardware (conjunto de trabajo de la GPU, RAM, ancho de banda de NVMe) y resuelve una optimización de ubicación que asigna cada tensor a un nivel:
- GPU (Metal) — Capas de atención, normalizaciones, incrustaciones
- RAM — Capas que no caben en el conjunto de trabajo de la GPU, accedidas mediante mmap
- NVMe — Capas restantes cargadas bajo demanda mediante E/S directa (
F_NOCACHE + pread), precargadas antes del paso hacia adelante
Para modelos MoE como Mixtral, Hypura implementa transmisión de expertos: solo los tensores no expertos (~1 GB) permanecen en la GPU, mientras que los tensores expertos se transmiten desde NVMe a través de un búfer de grupo bajo demanda. Incluye una caché de neuronas con una tasa de acierto del 99.5% que elimina la mayoría de las E/S después del calentamiento, intercepción del enrutador para identificar los expertos seleccionados y seguimiento de coactivación para predecir qué expertos se activarán a continuación para la precarga especulativa.
Para modelos densos como Llama 70B, utiliza transmisión densa de FFN: la atención y las normalizaciones permanecen en la GPU (~8 GB) mientras que los tensores de FFN (~32 GB) se transmiten desde NVMe a través de un búfer de grupo de tamaño dinámico con precarga escalada anticipada.
Puntos de referencia de rendimiento
Todos los puntos de referencia en M1 Max, 32 GB de memoria unificada, ~5.1 GB/s de lectura secuencial en NVMe:
- Qwen 2.5 14B Q4_K_M (8.4 GB): Modo residente completo, 21 tok/s (igual que llama.cpp)
- Mixtral 8x7B Q5_K_M (30.9 GB): Modo de transmisión de expertos, 2.2 tok/s (llama.cpp sin memoria)
- Llama 3.3 70B Q4_K_M (39.6 GB): Modo de transmisión densa de FFN, 0.3 tok/s (llama.cpp sin memoria)
El tamaño del búfer de grupo, la profundidad de precarga y los presupuestos de memoria se calculan automáticamente a partir del perfil de tu hardware; no se requiere ajuste manual.
Instalación
Hypura se compila desde el código fuente con Cargo. Necesitarás Rust 1.75+ y CMake.
📖 Read the full source: HN AI Agents
👀 Ver también

TailClaude: Interfaz Web de Código Abierto para Acceder a Sesiones de Código Claude desde Móvil y Navegador
TailClaude es una interfaz web de código abierto que te permite acceder y continuar sesiones de Claude Code desde tu teléfono o cualquier navegador en menos de un minuto usando Tailscale. El proyecto fue construido con la asistencia de Claude Code para el andamiaje, el backend de transmisión SSE, la interfaz de chat móvil y la integración de códigos QR.

OpenClaw Alexa Voice Proxy Permite la Interacción de Voz Bidireccional
openclaw-alexa-voice es un proxy de Node.js que conecta una Skill Personalizada de Alexa con la puerta de enlace OpenClaw mediante un sistema de respuesta de tres niveles para consultas de voz. Maneja respuestas rápidas en menos de 1 segundo, respuestas del agente en menos de 12 segundos y consultas complejas diferidas que se procesan de forma asincrónica en un plazo de 2 minutos.

La Técnica de Doble Búfer para Ventanas de Contexto de LLM Elimina la Compactación de Parada del Mundo
Una técnica llamada doble búfer puede evitar que los agentes de LLM se congelen durante la compactación de ventanas de contexto al resumir temprano y mantener dos búferes, permitiendo una transición fluida sin costo adicional de inferencia.

Claude Auto-Continue: La extensión de Chrome automatiza las interrupciones por límite de uso de herramientas
Un desarrollador creó una extensión gratuita para Chrome que hace clic automáticamente en 'Continuar' cuando Claude alcanza su límite de uso de herramientas después de aproximadamente 20 llamadas, eliminando las interrupciones manuales durante los flujos de trabajo agenticos. La extensión incluye minimización opcional de tokens y funciona en todas las pestañas y ventanas.