Hypura: Agendador de Inferência LLM para Apple Silicon

O que o Hypura faz

Hypura é um agendador de inferência de LLM consciente das camadas de armazenamento para Apple Silicon que posiciona tensores do modelo nas camadas GPU, RAM e NVMe com base nos padrões de acesso, custos de largura de banda e capacidades do hardware. Isso permite que modelos que excedem a memória física sejam executados sem travar o sistema.

Principais recursos e como funciona

O Hypura lê arquivos GGUF, perfila seu hardware (conjunto de trabalho da GPU, RAM, largura de banda NVMe) e resolve uma otimização de posicionamento que atribui cada tensor a uma camada:

GPU (Metal) — Camadas de atenção, normalizações, embeddings
RAM — Camadas de overflow que não cabem no conjunto de trabalho da GPU, acessadas via mmap
NVMe — Camadas restantes carregadas sob demanda via I/O direto (F_NOCACHE + pread), pré-buscadas antes da passagem forward

Para modelos MoE como Mixtral, o Hypura implementa streaming de especialistas: apenas tensores não-especialistas (~1 GB) permanecem na GPU, enquanto tensores de especialistas são transmitidos do NVMe através de um buffer de pool sob demanda. Inclui um cache de neurônios com taxa de acerto de 99,5% que elimina a maioria das operações de I/O após o aquecimento, interceptação do roteador para identificar especialistas selecionados e rastreamento de co-ativação para prever quais especialistas serão ativados em seguida para pré-busca especulativa.

Para modelos densos como Llama 70B, ele usa streaming denso de FFN: atenção + normalizações permanecem na GPU (~8 GB) enquanto tensores de FFN (~32 GB) são transmitidos do NVMe através de um buffer de pool de tamanho dinâmico com pré-busca antecipada escalonada.

Benchmarks de desempenho

Todos os benchmarks em M1 Max, 32 GB de memória unificada, ~5,1 GB/s de leitura sequencial NVMe:

Qwen 2.5 14B Q4_K_M (8,4 GB): Modo totalmente residente, 21 tok/s (igual ao llama.cpp)
Mixtral 8x7B Q5_K_M (30,9 GB): Modo streaming de especialistas, 2,2 tok/s (llama.cpp sem memória)
Llama 3.3 70B Q4_K_M (39,6 GB): Modo streaming denso de FFN, 0,3 tok/s (llama.cpp sem memória)

O tamanho do buffer de pool, profundidade de pré-busca e orçamentos de memória são calculados automaticamente a partir do perfil do seu hardware — nenhum ajuste manual necessário.

Instalação

O Hypura é compilado a partir do código-fonte com Cargo. Você precisará do Rust 1.75+ e CMake.

📖 Leia a fonte completa: HN AI Agents

Hypura: Agendador de inferência de LLM com consciência de camada de armazenamento para Apple Silicon

O que o Hypura faz

Principais recursos e como funciona

Benchmarks de desempenho

Instalação

👀 See Also

Engramx v3.4: Servidor MCP + Grafo de Conhecimento SQLite Reduz o Uso de Tokens do Claude Code em 89%

Phaselock: Um Sistema de Controle de Agentes de IA Inspirado em Técnicas de Criação de Filhos

Gargalo de Verificação de Código do Claude e Solução de Plugin de Automação de Navegador

LumaBrowser: Navegador Electron Descarrega a Análise DOM para LLMs Locais para Agentes de IA