Krasis LLM Runtime zeigt 8,9-fache Prefill- und 4,7-fache Decode-Geschwindigkeitssteigerungen gegenüber Llama.cpp

✍️ OpenClawRadar📅 Veröffentlicht: 17. März 2026🔗 Source
Krasis LLM Runtime zeigt 8,9-fache Prefill- und 4,7-fache Decode-Geschwindigkeitssteigerungen gegenüber Llama.cpp
Ad

Leistungsbenchmarks

Krasis zeigt im Vergleich zu llama.cpp auf gleicher Hardware erhebliche Leistungsverbesserungen. Auf einer einzelnen 5090-GPU, begrenzt durch PCIE 4.0, weist Krasis folgendes auf:

  • 8,9-mal schnellere Prefill-Geschwindigkeit
  • 4,7-mal schnellere Decode-Geschwindigkeit

Spezifische Benchmark-Ergebnisse für Qwen3-Coder-Next zeigen, dass Krasis auf einer einzelnen 16-GB-5080-GPU erreicht:

  • 1801 Token/Sekunde Prefill
  • 26,8 Token/Sekunde Decode

Dies übertrifft llama.cpp, das auf einer 32-GB-5090-GPU mit Layer-Offloading läuft.

Architekturänderungen

Die neueste Version von Krasis hat das Dual-Format-System aufgegeben und führt nun sowohl Prefill als auch Decode vollständig auf der GPU mit unterschiedlichen Optimierungsstrategien für jede Phase aus. Diese Architekturänderung führt zu:

  • Reduzierten CPU-Anforderungen
  • Geringerer Abhängigkeit von der System-RAM-Geschwindigkeit
  • Niedrigerem Gesamt-System-RAM-Verbrauch (benötigt jetzt nur noch genug für das quantisierte Modell plus etwas Overhead, verglichen mit der vorherigen 2,5-fachen Modellanforderung)
Ad

Unterstützte Modelle und Leistung

Aktuell unterstützte Modelle mit ihrer Leistung auf einer einzelnen 5090-GPU (PCIE 4.0) sind:

  • Qwen3.5-35B-A3B: 4475 Prefill, 109,1 Decode
  • Qwen3-Coder-Next: 3560 Prefill, 70,3 Decode
  • Qwen3.5-122B-A10B: 2897 Prefill, 27,7 Decode
  • Qwen3-235B-A22B: 2124 Prefill, 9,3 Decode

Zukünftige Entwicklungspläne

Der Entwickler plant:

  • Unterstützung für Nvidia-Nemotron-Modelle hinzuzufügen, insbesondere für Nemotron Super für Consumer-GPUs wie die 5080
  • Mögliche Unterstützung für größere Nemotron-Modelle nach deren Veröffentlichung
  • Erweiterung der IDE- und Tooling-Unterstützung für Opencode und Aider

Aktuelle Funktionen

Krasis bietet derzeit:

  • OpenAI-kompatiblen Server
  • Einzeilige Installation
  • Verfügbarkeit auf GitHub

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe
Werkzeuge

Benchmark-Ergebnisse für kleine lokale und OpenRouter-Modelle bei agentischer Text-to-SQL-Aufgabe

Ein Entwickler testete mehrere kleine lokale und OpenRouter-Modelle mithilfe eines benutzerdefinierten agentenbasierten Text-zu-SQL-Benchmarks, der englische Abfragen in SQL mit Debugging-Runden umwandelt. Der Benchmark umfasst 25 Fragen, läuft in unter 5 Minuten und zeigt Top-Performer wie kimi-k2.5 und Qwen 3.5-Varianten.

OpenClawRadar
GSD-Lite: Ein Zustandsautomat für Claude-Code, der TDD erzwingt und das Überspringen von Tests verhindert
Werkzeuge

GSD-Lite: Ein Zustandsautomat für Claude-Code, der TDD erzwingt und das Überspringen von Tests verhindert

GSD-Lite ist ein Open-Source-MCP-Server, der einen 12-Zustands-Workflow-Automaten zu Claude Code hinzufügt und testgetriebene Entwicklung mit spezifischen Anti-Rationalisierungs-Prompts sowie separaten Agentenkontexten für Ausführung, Überprüfung und Fehlerbehebung erzwingt.

OpenClawRadar
SIDJUA-Framework fügt Governance-Ebene zu autonomen KI-Agenten hinzu
Werkzeuge

SIDJUA-Framework fügt Governance-Ebene zu autonomen KI-Agenten hinzu

SIDJUA ist ein Framework mit integrierter Governance, rollenbasierten Berechtigungsregeln und vollständigen Audit-Trails, das auf jedem KI-Modell mit einer API aufsetzt. Die Demo zeigt eine dreistufige Hierarchie, die auf 7+1 Stufen skaliert, wobei jede Entscheidung protokolliert und Kosten in Echtzeit verfolgt werden.

OpenClawRadar
AIDA: Open-Source-Plattform für KI-gestütztes Penetration Testing
Werkzeuge

AIDA: Open-Source-Plattform für KI-gestütztes Penetration Testing

AIDA ist eine Open-Source-Plattform, die KI-Agenten über eine MCP-Verbindung zu einem Docker-Container eine vollständige Penetration-Testing-Umgebung bereitstellt. Die neueste Version ersetzt die 40 GB große Exegol-Anforderung durch einen speziell entwickelten 1 GB-Container, der wesentliche Sicherheitstools enthält.

OpenClawRadar