Hypura: Speicher-Ebenen-bewusster LLM-Inferenz-Planer für Apple Silicon

Was Hypura macht
Hypura ist ein speichertierbewusster LLM-Inferenz-Scheduler für Apple Silicon, der Modelltensoren basierend auf Zugriffsmustern, Bandbreitenkosten und Hardwarefähigkeiten über GPU-, RAM- und NVMe-Ebenen verteilt. Dies ermöglicht die Ausführung von Modellen, die den physischen Speicher übersteigen, ohne dass das System abstürzt.
Hauptfunktionen und Funktionsweise
Hypura liest GGUF-Dateien, erstellt ein Profil Ihrer Hardware (GPU-Arbeitssatz, RAM, NVMe-Bandbreite) und löst ein Platzierungsoptimierungsproblem, das jeden Tensor einer Ebene zuweist:
- GPU (Metal) — Aufmerksamkeitsschichten, Normen, Einbettungen
- RAM — Überlaufschichten, die nicht in den GPU-Arbeitssatz passen, über mmap zugreifbar
- NVMe — Verbleibende Schichten, die bei Bedarf über direkten I/O (
F_NOCACHE + pread) geladen werden, vor dem Vorwärtsdurchlauf vorab geladen
Für MoE-Modelle wie Mixtral implementiert Hypura Expert-Streaming: Nur Nicht-Experten-Tensoren (~1 GB) verbleiben auf der GPU, während Experten-Tensoren bei Bedarf aus dem NVMe über einen Pool-Puffer gestreamt werden. Es enthält einen Neuron-Cache mit 99,5 % Trefferquote, der nach dem Aufwärmen die meisten I/O-Vorgänge eliminiert, Router-Interception zur Identifizierung ausgewählter Experten und Co-Aktivierungs-Tracking, um vorherzusagen, welche Experten als nächstes aktiviert werden, für spekulatives Vorabladen.
Für dichte Modelle wie Llama 70B verwendet es Dense-FFN-Streaming: Aufmerksamkeit + Normen verbleiben auf der GPU (~8 GB), während FFN-Tensoren (~32 GB) aus dem NVMe über einen dynamisch dimensionierten Pool-Puffer mit skaliertem Vorablade-Lookahead gestreamt werden.
Leistungsbenchmarks
Alle Benchmarks auf M1 Max, 32 GB Unified Memory, ~5,1 GB/s NVMe sequenzieller Lesezugriff:
- Qwen 2.5 14B Q4_K_M (8,4 GB): Vollresident-Modus, 21 Tok/s (gleich wie llama.cpp)
- Mixtral 8x7B Q5_K_M (30,9 GB): Expert-Streaming-Modus, 2,2 Tok/s (llama.cpp OOM)
- Llama 3.3 70B Q4_K_M (39,6 GB): Dense-FFN-Streaming-Modus, 0,3 Tok/s (llama.cpp OOM)
Pool-Puffergröße, Vorabladetiefe und Speicherbudgets werden automatisch aus Ihrem Hardwareprofil berechnet – keine manuelle Anpassung erforderlich.
Installation
Hypura wird aus dem Quellcode mit Cargo erstellt. Sie benötigen Rust 1.75+ und CMake.
📖 Source: HN AI Agents
👀 Siehe auch

0Latency: Eine persistente Speicherschicht für KI-Agenten über MCP
0Latency ist ein MCP-Server, der persistente Speicher für Claude und andere KI-Agenten hinzufügt, Erinnerungen über Sitzungen hinweg speichert, um Kontextverlust zu verhindern. Es funktioniert nativ mit Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor und jedem MCP-kompatiblen Agenten.

AnyClaw: Ubuntu 24.04 mit Android-Hardware-Zugriff und KI-Agent für die Terminalentwicklung
AnyClaw bietet eine vollständige Ubuntu 24.04-Umgebung, die in proot auf Android läuft, mit direktem Zugriff auf Android-Hardware-APIs über das Terminal, einschließlich Kamera, GPS, Akku und Sensoren über Bash-Befehle und Java-Ausführung. Es enthält einen KI-Coding-Agenten, der diese Werkzeuge orchestrieren kann, und eine Web-UI, die von jedem Browser im selben Netzwerk aus zugänglich ist.

Benutzerdefiniertes WhatsApp-Kanal-Plugin für Claude Code unter Verwendung von Baileys
Ein Entwickler hat ein benutzerdefiniertes Kanal-Plugin erstellt, das WhatsApp-Unterstützung zu Claude Code 2.1.80+ hinzufügt, indem es Baileys v7 verwendet und das WhatsApp Web Multi-Device-Protokoll als MCP-Server mit der experimentellen claude/channel-Fähigkeit implementiert.

Claude Code Best Practice Repo erreicht 50k Sterne, vollständig mit KI-Agenten erstellt
Ein GitHub-Repository vollgepackt mit Claude-Best-Practices, das zu 100 % von autonomen Claude-Code-Workflows entwickelt und gepflegt wird, hat 50.000 Sterne überschritten – und ist damit das meistgestirnte Repository Pakistans im Jahr 2026.