Krasis LLM Runtime zeigt 8,9-fache Prefill- und 4,7-fache Decode-Geschwindigkeitssteigerungen gegenüber Llama.cpp

Leistungsbenchmarks
Krasis zeigt im Vergleich zu llama.cpp auf gleicher Hardware erhebliche Leistungsverbesserungen. Auf einer einzelnen 5090-GPU, begrenzt durch PCIE 4.0, weist Krasis folgendes auf:
- 8,9-mal schnellere Prefill-Geschwindigkeit
- 4,7-mal schnellere Decode-Geschwindigkeit
Spezifische Benchmark-Ergebnisse für Qwen3-Coder-Next zeigen, dass Krasis auf einer einzelnen 16-GB-5080-GPU erreicht:
- 1801 Token/Sekunde Prefill
- 26,8 Token/Sekunde Decode
Dies übertrifft llama.cpp, das auf einer 32-GB-5090-GPU mit Layer-Offloading läuft.
Architekturänderungen
Die neueste Version von Krasis hat das Dual-Format-System aufgegeben und führt nun sowohl Prefill als auch Decode vollständig auf der GPU mit unterschiedlichen Optimierungsstrategien für jede Phase aus. Diese Architekturänderung führt zu:
- Reduzierten CPU-Anforderungen
- Geringerer Abhängigkeit von der System-RAM-Geschwindigkeit
- Niedrigerem Gesamt-System-RAM-Verbrauch (benötigt jetzt nur noch genug für das quantisierte Modell plus etwas Overhead, verglichen mit der vorherigen 2,5-fachen Modellanforderung)
Unterstützte Modelle und Leistung
Aktuell unterstützte Modelle mit ihrer Leistung auf einer einzelnen 5090-GPU (PCIE 4.0) sind:
- Qwen3.5-35B-A3B: 4475 Prefill, 109,1 Decode
- Qwen3-Coder-Next: 3560 Prefill, 70,3 Decode
- Qwen3.5-122B-A10B: 2897 Prefill, 27,7 Decode
- Qwen3-235B-A22B: 2124 Prefill, 9,3 Decode
Zukünftige Entwicklungspläne
Der Entwickler plant:
- Unterstützung für Nvidia-Nemotron-Modelle hinzuzufügen, insbesondere für Nemotron Super für Consumer-GPUs wie die 5080
- Mögliche Unterstützung für größere Nemotron-Modelle nach deren Veröffentlichung
- Erweiterung der IDE- und Tooling-Unterstützung für Opencode und Aider
Aktuelle Funktionen
Krasis bietet derzeit:
- OpenAI-kompatiblen Server
- Einzeilige Installation
- Verfügbarkeit auf GitHub
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe
Ein Entwickler testete mehrere kleine lokale und OpenRouter-Modelle mithilfe eines benutzerdefinierten agentenbasierten Text-zu-SQL-Benchmarks, der englische Abfragen in SQL mit Debugging-Runden umwandelt. Der Benchmark umfasst 25 Fragen, läuft in unter 5 Minuten und zeigt Top-Performer wie kimi-k2.5 und Qwen 3.5-Varianten.

GSD-Lite: Ein Zustandsautomat für Claude-Code, der TDD erzwingt und das Überspringen von Tests verhindert
GSD-Lite ist ein Open-Source-MCP-Server, der einen 12-Zustands-Workflow-Automaten zu Claude Code hinzufügt und testgetriebene Entwicklung mit spezifischen Anti-Rationalisierungs-Prompts sowie separaten Agentenkontexten für Ausführung, Überprüfung und Fehlerbehebung erzwingt.

SIDJUA-Framework fügt Governance-Ebene zu autonomen KI-Agenten hinzu
SIDJUA ist ein Framework mit integrierter Governance, rollenbasierten Berechtigungsregeln und vollständigen Audit-Trails, das auf jedem KI-Modell mit einer API aufsetzt. Die Demo zeigt eine dreistufige Hierarchie, die auf 7+1 Stufen skaliert, wobei jede Entscheidung protokolliert und Kosten in Echtzeit verfolgt werden.

AIDA: Open-Source-Plattform für KI-gestütztes Penetration Testing
AIDA ist eine Open-Source-Plattform, die KI-Agenten über eine MCP-Verbindung zu einem Docker-Container eine vollständige Penetration-Testing-Umgebung bereitstellt. Die neueste Version ersetzt die 40 GB große Exegol-Anforderung durch einen speziell entwickelten 1 GB-Container, der wesentliche Sicherheitstools enthält.