Krasis: Hybride CPU/GPU-Laufzeitumgebung für große MoE-Modelle erreicht 3.324 Tok/s Prefill auf RTX 5080

✍️ OpenClawRadar📅 Veröffentlicht: 27. Februar 2026🔗 Source
Krasis: Hybride CPU/GPU-Laufzeitumgebung für große MoE-Modelle erreicht 3.324 Tok/s Prefill auf RTX 5080
Ad

Krasis ist eine hybride CPU/GPU-Laufzeitumgebung, die speziell für große Mixture-of-Experts (MoE)-Modelle entwickelt wurde. Der Kernansatz nutzt die GPU für die rechenintensive Vorausfüllungsphase, während die CPU die Dekodierung übernimmt. Der System-RAM bietet zusätzliche Kapazität, um die Leistung zu maximieren.

Benchmark-Ergebnisse

RTX 5080-Konfiguration:

  • Hardware: AMD 5900X, DDR4-3200, 1x RTX 5080 16GB, PCIe 4.0 x16
  • Qwen3-Coder-Next (80B) Q4: 3.324 Tok/s Vorausfüllung, 9,7s TTFT (35K Kontext), 14,9 Tok/s Dekodierung

EPYC-Konfiguration:

  • Hardware: AMD EPYC 7742 (64c), DDR4-2666 8-Kanal, 1x RTX 2000 Ada 16GB, PCIe 4.0 x8
  • Qwen3-Coder-Next (80B) Q4: 1.060 Tok/s Vorausfüllung, 18,9s TTFT, 15,8 Tok/s Dekodierung
  • Qwen3-Coder-Next (80B) Q8: 873 Tok/s Vorausfüllung, 40,1s TTFT, 12,4 Tok/s Dekodierung
  • Qwen3.5-35B-A3B Q4: 1.374 Tok/s Vorausfüllung, 14,6s TTFT, 15,0 Tok/s Dekodierung
  • Qwen3-235B-A22B Q4: 289 Tok/s Vorausfüllung, 69,1s TTFT, 3,4 Tok/s Dekodierung
  • DeepSeek V2-Lite (16B) Q4: 1.477 Tok/s Vorausfüllung, 13,6s TTFT, 20,2 Tok/s Dekodierung
  • DeepSeek V2-Lite (16B) Q8: 1.317 Tok/s Vorausfüllung, 15,2s TTFT, 17,8 Tok/s Dekodierung

Die Benchmarks verwendeten 10K–50K Token-Prompts für die Vorausfüllung (beste von 20K/35K/50K gemeldet) und 64-Token-Generierung für die Dekodierung (Durchschnitt von 3 Läufen).

Ad

Wie es funktioniert

Im Gegensatz zu Standard-Laufzeitumgebungen, die nur wenige Schichten auf die GPU auslagern und den größten Teil des Modells auf der CPU ausführen, behandelt Krasis die GPU als Streaming-Compute-Engine. Sie schiebt das Modell so schnell wie möglich durch den VRAM und versteckt Übertragungen unter gleichzeitiger Berechnung. Die GPU verarbeitet den vollständigen Vorausfüllungsdurchlauf, dann übernimmt die CPU die Dekodierung.

Kompromisse

  • RAM-hungrig: Benötigt etwa das 2,5-fache der quantisierten Modellgewichte im System-RAM (z. B. ~100 GB für Qwen3-Coder-Next bei Q4)
  • Nur NVIDIA-Karten
  • Speziell auf MoE-Modelle ausgerichtet (Dekodierung wäre bei dichten Modellen langsam)
  • Erster Lauf ist langsam aufgrund von Vorverarbeitung und Caching
  • Festplatten-hungrig: Benötigt die ursprüngliche BF16-Safetensors-Datei und speichert zwischengespeicherte transkodierte Modelle (~2x quantisierte Modellgröße)

Unterstützte Modelle

Qwen3-Coder-Next (am gründlichsten getestet), Qwen3.5-35B-A3B, Qwen3-235B-A22B und DeepSeek V2-Lite. Weitere Modelle folgen in Kürze.

Technische Details

  • Geschrieben in Rust + Python (für Orchestrierung)
  • OpenAI-kompatible API (funktioniert mit Cursor, OpenCode usw.)
  • Interaktiver Launcher für die Konfiguration
  • SSPL-lizenziert (kostenlos zu nutzen, zu modifizieren, zu verteilen)
  • GitHub: https://github.com/brontoguana/krasis

Der Entwickler sucht Feedback dazu, welche Modelle als nächstes unterstützt werden sollen, Gedanken zu den Kompromissen und Benchmarks von Nutzern mit 5er-Serie-Karten und PCIe 5.0.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Workflow-Orchestrator mit KI-CLI-Integration für Sysadmin-Aufgaben
Werkzeuge

Workflow-Orchestrator mit KI-CLI-Integration für Sysadmin-Aufgaben

Ein Entwickler hat einen dateibasierten Workflow-Orchestrator namens 'workflow' erstellt, der sich mit Claude Code, Codex CLI und Gemini CLI integriert. Er generiert, aktualisiert, korrigiert und verfeinert YAML-Workflows aus natürlichen Sprachbeschreibungen für Sysadmin-Aufgaben.

OpenClawRadar
ClawCode: Rust-Neuschreibung des geleakten Claude-Codes in einer Reinraumumgebung
Werkzeuge

ClawCode: Rust-Neuschreibung des geleakten Claude-Codes in einer Reinraumumgebung

ClawCode ist eine Cleanroom-Neuimplementierung des geleakten Claude Code-Quellcodes, die in Rust umgesetzt wurde. Das Projekt entstand nach dem Leak von Anthropics Claude Code und wird mit OpenCode hinsichtlich der End-to-End-Aufgabenleistung verglichen.

OpenClawRadar
AutoDream: 11-Hook-Speichersystem für Claude Code mit Sicherheitsfunktionen
Werkzeuge

AutoDream: 11-Hook-Speichersystem für Claude Code mit Sicherheitsfunktionen

AutoDream ist ein Open-Source-Tool, das Projektspeicherpersistenz und Befehlsicherheit zu Claude Code hinzufügt. Es verwendet 11 Hooks über 6 Ereignisse hinweg, um Kontext einzuspritzen, gefährliche Befehle zu blockieren und den /compact-Vorgang zu überstehen.

OpenClawRadar
Kuratiert Liste von 260+ KI-Agenten-Tools mit Schwerpunkt auf dem Claude-Ökosystem
Werkzeuge

Kuratiert Liste von 260+ KI-Agenten-Tools mit Schwerpunkt auf dem Claude-Ökosystem

Ein GitHub-Repository enthält eine kuratierte Liste von über 260 KI-Agenten-Tools, darunter spezifische Claude-bezogene Einträge wie Claude Code (80,9 % SWE-bench), Claude Computer Use und Claude in Chrome sowie Tools, die gut mit Claude funktionieren, wie Cline und Cursor.

OpenClawRadar