Hypura: Speicher-Ebenen-bewusster LLM-Planer für Apple Silicon

Was Hypura macht

Hypura ist ein speichertierbewusster LLM-Inferenz-Scheduler für Apple Silicon, der Modelltensoren basierend auf Zugriffsmustern, Bandbreitenkosten und Hardwarefähigkeiten über GPU-, RAM- und NVMe-Ebenen verteilt. Dies ermöglicht die Ausführung von Modellen, die den physischen Speicher übersteigen, ohne dass das System abstürzt.

Hauptfunktionen und Funktionsweise

Hypura liest GGUF-Dateien, erstellt ein Profil Ihrer Hardware (GPU-Arbeitssatz, RAM, NVMe-Bandbreite) und löst ein Platzierungsoptimierungsproblem, das jeden Tensor einer Ebene zuweist:

GPU (Metal) — Aufmerksamkeitsschichten, Normen, Einbettungen
RAM — Überlaufschichten, die nicht in den GPU-Arbeitssatz passen, über mmap zugreifbar
NVMe — Verbleibende Schichten, die bei Bedarf über direkten I/O (F_NOCACHE + pread) geladen werden, vor dem Vorwärtsdurchlauf vorab geladen

Für MoE-Modelle wie Mixtral implementiert Hypura Expert-Streaming: Nur Nicht-Experten-Tensoren (~1 GB) verbleiben auf der GPU, während Experten-Tensoren bei Bedarf aus dem NVMe über einen Pool-Puffer gestreamt werden. Es enthält einen Neuron-Cache mit 99,5 % Trefferquote, der nach dem Aufwärmen die meisten I/O-Vorgänge eliminiert, Router-Interception zur Identifizierung ausgewählter Experten und Co-Aktivierungs-Tracking, um vorherzusagen, welche Experten als nächstes aktiviert werden, für spekulatives Vorabladen.

Für dichte Modelle wie Llama 70B verwendet es Dense-FFN-Streaming: Aufmerksamkeit + Normen verbleiben auf der GPU (~8 GB), während FFN-Tensoren (~32 GB) aus dem NVMe über einen dynamisch dimensionierten Pool-Puffer mit skaliertem Vorablade-Lookahead gestreamt werden.

Leistungsbenchmarks

Alle Benchmarks auf M1 Max, 32 GB Unified Memory, ~5,1 GB/s NVMe sequenzieller Lesezugriff:

Qwen 2.5 14B Q4_K_M (8,4 GB): Vollresident-Modus, 21 Tok/s (gleich wie llama.cpp)
Mixtral 8x7B Q5_K_M (30,9 GB): Expert-Streaming-Modus, 2,2 Tok/s (llama.cpp OOM)
Llama 3.3 70B Q4_K_M (39,6 GB): Dense-FFN-Streaming-Modus, 0,3 Tok/s (llama.cpp OOM)

Pool-Puffergröße, Vorabladetiefe und Speicherbudgets werden automatisch aus Ihrem Hardwareprofil berechnet – keine manuelle Anpassung erforderlich.