Hypura: Speicher-Ebenen-bewusster LLM-Inferenz-Planer für Apple Silicon

✍️ OpenClawRadar📅 Veröffentlicht: 24. März 2026🔗 Source
Hypura: Speicher-Ebenen-bewusster LLM-Inferenz-Planer für Apple Silicon
Ad

Was Hypura macht

Hypura ist ein speichertierbewusster LLM-Inferenz-Scheduler für Apple Silicon, der Modelltensoren basierend auf Zugriffsmustern, Bandbreitenkosten und Hardwarefähigkeiten über GPU-, RAM- und NVMe-Ebenen verteilt. Dies ermöglicht die Ausführung von Modellen, die den physischen Speicher übersteigen, ohne dass das System abstürzt.

Hauptfunktionen und Funktionsweise

Hypura liest GGUF-Dateien, erstellt ein Profil Ihrer Hardware (GPU-Arbeitssatz, RAM, NVMe-Bandbreite) und löst ein Platzierungsoptimierungsproblem, das jeden Tensor einer Ebene zuweist:

  • GPU (Metal) — Aufmerksamkeitsschichten, Normen, Einbettungen
  • RAM — Überlaufschichten, die nicht in den GPU-Arbeitssatz passen, über mmap zugreifbar
  • NVMe — Verbleibende Schichten, die bei Bedarf über direkten I/O (F_NOCACHE + pread) geladen werden, vor dem Vorwärtsdurchlauf vorab geladen

Für MoE-Modelle wie Mixtral implementiert Hypura Expert-Streaming: Nur Nicht-Experten-Tensoren (~1 GB) verbleiben auf der GPU, während Experten-Tensoren bei Bedarf aus dem NVMe über einen Pool-Puffer gestreamt werden. Es enthält einen Neuron-Cache mit 99,5 % Trefferquote, der nach dem Aufwärmen die meisten I/O-Vorgänge eliminiert, Router-Interception zur Identifizierung ausgewählter Experten und Co-Aktivierungs-Tracking, um vorherzusagen, welche Experten als nächstes aktiviert werden, für spekulatives Vorabladen.

Für dichte Modelle wie Llama 70B verwendet es Dense-FFN-Streaming: Aufmerksamkeit + Normen verbleiben auf der GPU (~8 GB), während FFN-Tensoren (~32 GB) aus dem NVMe über einen dynamisch dimensionierten Pool-Puffer mit skaliertem Vorablade-Lookahead gestreamt werden.

Ad

Leistungsbenchmarks

Alle Benchmarks auf M1 Max, 32 GB Unified Memory, ~5,1 GB/s NVMe sequenzieller Lesezugriff:

  • Qwen 2.5 14B Q4_K_M (8,4 GB): Vollresident-Modus, 21 Tok/s (gleich wie llama.cpp)
  • Mixtral 8x7B Q5_K_M (30,9 GB): Expert-Streaming-Modus, 2,2 Tok/s (llama.cpp OOM)
  • Llama 3.3 70B Q4_K_M (39,6 GB): Dense-FFN-Streaming-Modus, 0,3 Tok/s (llama.cpp OOM)

Pool-Puffergröße, Vorabladetiefe und Speicherbudgets werden automatisch aus Ihrem Hardwareprofil berechnet – keine manuelle Anpassung erforderlich.

Installation

Hypura wird aus dem Quellcode mit Cargo erstellt. Sie benötigen Rust 1.75+ und CMake.

📖 Source: HN AI Agents

Ad

👀 Siehe auch

0Latency: Eine persistente Speicherschicht für KI-Agenten über MCP
Werkzeuge

0Latency: Eine persistente Speicherschicht für KI-Agenten über MCP

0Latency ist ein MCP-Server, der persistente Speicher für Claude und andere KI-Agenten hinzufügt, Erinnerungen über Sitzungen hinweg speichert, um Kontextverlust zu verhindern. Es funktioniert nativ mit Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor und jedem MCP-kompatiblen Agenten.

OpenClawRadar
AnyClaw: Ubuntu 24.04 mit Android-Hardware-Zugriff und KI-Agent für die Terminalentwicklung
Werkzeuge

AnyClaw: Ubuntu 24.04 mit Android-Hardware-Zugriff und KI-Agent für die Terminalentwicklung

AnyClaw bietet eine vollständige Ubuntu 24.04-Umgebung, die in proot auf Android läuft, mit direktem Zugriff auf Android-Hardware-APIs über das Terminal, einschließlich Kamera, GPS, Akku und Sensoren über Bash-Befehle und Java-Ausführung. Es enthält einen KI-Coding-Agenten, der diese Werkzeuge orchestrieren kann, und eine Web-UI, die von jedem Browser im selben Netzwerk aus zugänglich ist.

OpenClawRadar
Benutzerdefiniertes WhatsApp-Kanal-Plugin für Claude Code unter Verwendung von Baileys
Werkzeuge

Benutzerdefiniertes WhatsApp-Kanal-Plugin für Claude Code unter Verwendung von Baileys

Ein Entwickler hat ein benutzerdefiniertes Kanal-Plugin erstellt, das WhatsApp-Unterstützung zu Claude Code 2.1.80+ hinzufügt, indem es Baileys v7 verwendet und das WhatsApp Web Multi-Device-Protokoll als MCP-Server mit der experimentellen claude/channel-Fähigkeit implementiert.

OpenClawRadar
Claude Code Best Practice Repo erreicht 50k Sterne, vollständig mit KI-Agenten erstellt
Werkzeuge

Claude Code Best Practice Repo erreicht 50k Sterne, vollständig mit KI-Agenten erstellt

Ein GitHub-Repository vollgepackt mit Claude-Best-Practices, das zu 100 % von autonomen Claude-Code-Workflows entwickelt und gepflegt wird, hat 50.000 Sterne überschritten – und ist damit das meistgestirnte Repository Pakistans im Jahr 2026.

OpenClawRadar