Krasis: Hybride CPU/GPU Laufzeitumgebung erreicht 3.324 Tok/s

Krasis ist eine hybride CPU/GPU-Laufzeitumgebung, die speziell für große Mixture-of-Experts (MoE)-Modelle entwickelt wurde. Der Kernansatz nutzt die GPU für die rechenintensive Vorausfüllungsphase, während die CPU die Dekodierung übernimmt. Der System-RAM bietet zusätzliche Kapazität, um die Leistung zu maximieren.

Benchmark-Ergebnisse

RTX 5080-Konfiguration:

Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
Qwen3-Coder-Next (80B) Q4: 3.324 Tok/s Vorausfüllung, 9,7s TTFT (35K Kontext), 14,9 Tok/s Dekodierung

EPYC-Konfiguration:

Hardware: AMD EPYC 7742 (64c), DDR4-2666 8-Kanal, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
Qwen3-Coder-Next (80B) Q4: 1.060 Tok/s Vorausfüllung, 18,9s TTFT, 15,8 Tok/s Dekodierung
Qwen3-Coder-Next (80B) Q8: 873 Tok/s Vorausfüllung, 40,1s TTFT, 12,4 Tok/s Dekodierung
Qwen3.5-35B-A3B Q4: 1.374 Tok/s Vorausfüllung, 14,6s TTFT, 15,0 Tok/s Dekodierung
Qwen3-235B-A22B Q4: 289 Tok/s Vorausfüllung, 69,1s TTFT, 3,4 Tok/s Dekodierung
DeepSeek V2-Lite (16B) Q4: 1.477 Tok/s Vorausfüllung, 13,6s TTFT, 20,2 Tok/s Dekodierung
DeepSeek V2-Lite (16B) Q8: 1.317 Tok/s Vorausfüllung, 15,2s TTFT, 17,8 Tok/s Dekodierung

Die Benchmarks verwendeten 10K–50K Token-Prompts für die Vorausfüllung (beste von 20K/35K/50K gemeldet) und 64-Token-Generierung für die Dekodierung (Durchschnitt von 3 Läufen).

Wie es funktioniert

Im Gegensatz zu Standard-Laufzeitumgebungen, die nur wenige Schichten auf die GPU auslagern und den größten Teil des Modells auf der CPU ausführen, behandelt Krasis die GPU als Streaming-Compute-Engine. Sie schiebt das Modell so schnell wie möglich durch den VRAM und versteckt Übertragungen unter gleichzeitiger Berechnung. Die GPU verarbeitet den vollständigen Vorausfüllungsdurchlauf, dann übernimmt die CPU die Dekodierung.

Kompromisse

RAM-hungrig: Benötigt etwa das 2,5-fache der quantisierten Modellgewichte im System-RAM (z. B. ~100 GB für Qwen3-Coder-Next bei Q4)
Nur NVIDIA-Karten
Speziell auf MoE-Modelle ausgerichtet (Dekodierung wäre bei dichten Modellen langsam)
Erster Lauf ist langsam aufgrund von Vorverarbeitung und Caching
Festplatten-hungrig: Benötigt die ursprüngliche BF16-Safetensors-Datei und speichert zwischengespeicherte transkodierte Modelle (~2x quantisierte Modellgröße)

Unterstützte Modelle

Qwen3-Coder-Next (am gründlichsten getestet), Qwen3.5-35B-A3B, Qwen3-235B-A22B und DeepSeek V2-Lite. Weitere Modelle folgen in Kürze.

Technische Details

Geschrieben in Rust + Python (für Orchestrierung)
OpenAI-kompatible API (funktioniert mit Cursor, OpenCode usw.)
Interaktiver Launcher für die Konfiguration
SSPL-lizenziert (kostenlos zu nutzen, zu modifizieren, zu verteilen)
GitHub: https://github.com/brontoguana/krasis

Der Entwickler sucht Feedback dazu, welche Modelle als nächstes unterstützt werden sollen, Gedanken zu den Kompromissen und Benchmarks von Nutzern mit 5er-Serie-Karten und PCIe 5.0.

📖 Read the full source: r/LocalLLaMA

Krasis: Hybride CPU/GPU-Laufzeitumgebung für große MoE-Modelle erreicht 3.324 Tok/s Prefill auf RTX 5080

Benchmark-Ergebnisse

Wie es funktioniert

Kompromisse

Unterstützte Modelle

Technische Details

👀 Siehe auch

OpenClaw KI-Agent mit 6 Rollen, Gedächtnis und ADHS-gerechtem Design: Tägliche Einsätze im Überblick

ClawControl v1.3.1 fügt Medienunterstützung, Sprachdiktat und Linux-Paketierung hinzu.

SeeFlow: Architekturdiagramme, die mit Ihrer Live-App verbunden sind

Quanta-SDK v0.9.2 fügt einen MCP-Server für die Ausführung von Quantenschaltkreisen über KI-Agenten hinzu.