Hypura: Agendador de inferência de LLM com consciência de camada de armazenamento para Apple Silicon

O que o Hypura faz
Hypura é um agendador de inferência de LLM consciente das camadas de armazenamento para Apple Silicon que posiciona tensores do modelo nas camadas GPU, RAM e NVMe com base nos padrões de acesso, custos de largura de banda e capacidades do hardware. Isso permite que modelos que excedem a memória física sejam executados sem travar o sistema.
Principais recursos e como funciona
O Hypura lê arquivos GGUF, perfila seu hardware (conjunto de trabalho da GPU, RAM, largura de banda NVMe) e resolve uma otimização de posicionamento que atribui cada tensor a uma camada:
- GPU (Metal) — Camadas de atenção, normalizações, embeddings
- RAM — Camadas de overflow que não cabem no conjunto de trabalho da GPU, acessadas via mmap
- NVMe — Camadas restantes carregadas sob demanda via I/O direto (
F_NOCACHE + pread), pré-buscadas antes da passagem forward
Para modelos MoE como Mixtral, o Hypura implementa streaming de especialistas: apenas tensores não-especialistas (~1 GB) permanecem na GPU, enquanto tensores de especialistas são transmitidos do NVMe através de um buffer de pool sob demanda. Inclui um cache de neurônios com taxa de acerto de 99,5% que elimina a maioria das operações de I/O após o aquecimento, interceptação do roteador para identificar especialistas selecionados e rastreamento de co-ativação para prever quais especialistas serão ativados em seguida para pré-busca especulativa.
Para modelos densos como Llama 70B, ele usa streaming denso de FFN: atenção + normalizações permanecem na GPU (~8 GB) enquanto tensores de FFN (~32 GB) são transmitidos do NVMe através de um buffer de pool de tamanho dinâmico com pré-busca antecipada escalonada.
Benchmarks de desempenho
Todos os benchmarks em M1 Max, 32 GB de memória unificada, ~5,1 GB/s de leitura sequencial NVMe:
- Qwen 2.5 14B Q4_K_M (8,4 GB): Modo totalmente residente, 21 tok/s (igual ao llama.cpp)
- Mixtral 8x7B Q5_K_M (30,9 GB): Modo streaming de especialistas, 2,2 tok/s (llama.cpp sem memória)
- Llama 3.3 70B Q4_K_M (39,6 GB): Modo streaming denso de FFN, 0,3 tok/s (llama.cpp sem memória)
O tamanho do buffer de pool, profundidade de pré-busca e orçamentos de memória são calculados automaticamente a partir do perfil do seu hardware — nenhum ajuste manual necessário.
Instalação
O Hypura é compilado a partir do código-fonte com Cargo. Você precisará do Rust 1.75+ e CMake.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

AgentMind: Um Plugin de Código do Claude Que Aprende e Aplica Suas Preferências de Codificação
AgentMind é um plugin do Claude Code que observa seus padrões de codificação, aprende preferências como escolhas de ferramentas e regras de estilo, e automaticamente injeta esse contexto em sessões futuras. Ele usa um loop central de seis etapas e pontuação de confiança para determinar quando aplicar preferências aprendidas.

Sistema de Bandido Contextual Auto-Hospedado em Rust: Syntra & Lycan para Sistemas de Decisão Adaptativos
Dois projetos open-source: Lycan (linguagem de execução de grafos com nós de estratégia e pesos aprendidos) e Syntra (aplicativo Docker/API que serve cápsulas Lycan compiladas). Encontramos bugs no pipeline de dados antes de bugs em tempo de execução ao testar em um produto de debate sobre ações com IA.

Desenvolvimento em Lisp com Agentes de IA: Custos Elevados e Desafios Técnicos
Um engenheiro de DevOps descobriu que agentes de IA têm dificuldades com desenvolvimento em Lisp, custando $10-$20 em minutos para código abaixo do padrão, enquanto Python e Go funcionam com eficiência. Ele criou tmux-repl-mcp para melhorar a interação com o REPL, mas ainda enfrentou altos custos de tokens e problemas com ferramentas.

Kit de Ferramentas de Loop Ralph de Código Aberto para Claude Code: Agentes Pickle Rick e Mr. Meeseeks
Uma extensão de código aberto para Claude Code implementa a técnica Ralph Loop com dois agentes autônomos: Pickle Rick para desenvolvimento orientado por PRD e Mr. Meeseeks para revisão de código. Ambos usam tmux com painéis em tempo real e notificações do macOS.