Krasis LLM Runtime: 8,9x Prefill, 4,7x Decode vs Llama.cpp

Leistungsbenchmarks

Krasis zeigt im Vergleich zu llama.cpp auf gleicher Hardware erhebliche Leistungsverbesserungen. Auf einer einzelnen 5090-GPU, begrenzt durch PCIE 4.0, weist Krasis folgendes auf:

8,9-mal schnellere Prefill-Geschwindigkeit
4,7-mal schnellere Decode-Geschwindigkeit

Spezifische Benchmark-Ergebnisse für Qwen3-Coder-Next zeigen, dass Krasis auf einer einzelnen 16-GB-5080-GPU erreicht:

1801 Token/Sekunde Prefill
26,8 Token/Sekunde Decode

Dies übertrifft llama.cpp, das auf einer 32-GB-5090-GPU mit Layer-Offloading läuft.

Architekturänderungen

Die neueste Version von Krasis hat das Dual-Format-System aufgegeben und führt nun sowohl Prefill als auch Decode vollständig auf der GPU mit unterschiedlichen Optimierungsstrategien für jede Phase aus. Diese Architekturänderung führt zu:

Reduzierten CPU-Anforderungen
Geringerer Abhängigkeit von der System-RAM-Geschwindigkeit
Niedrigerem Gesamt-System-RAM-Verbrauch (benötigt jetzt nur noch genug für das quantisierte Modell plus etwas Overhead, verglichen mit der vorherigen 2,5-fachen Modellanforderung)

Unterstützte Modelle und Leistung

Aktuell unterstützte Modelle mit ihrer Leistung auf einer einzelnen 5090-GPU (PCIE 4.0) sind:

Qwen3.5-35B-A3B: 4475 Prefill, 109,1 Decode
Qwen3-Coder-Next: 3560 Prefill, 70,3 Decode
Qwen3.5-122B-A10B: 2897 Prefill, 27,7 Decode
Qwen3-235B-A22B: 2124 Prefill, 9,3 Decode

Zukünftige Entwicklungspläne

Der Entwickler plant:

Unterstützung für Nvidia-Nemotron-Modelle hinzuzufügen, insbesondere für Nemotron Super für Consumer-GPUs wie die 5080
Mögliche Unterstützung für größere Nemotron-Modelle nach deren Veröffentlichung
Erweiterung der IDE- und Tooling-Unterstützung für Opencode und Aider