Jake Benchmark v1: Lokale LLM-Leistungstests für OpenClaw KI-Agenten

✍️ OpenClawRadar📅 Veröffentlicht: 23. März 2026🔗 Source
Jake Benchmark v1: Lokale LLM-Leistungstests für OpenClaw KI-Agenten
Ad

Der Jake Benchmark v1 ist ein Leistungsbewertungstool für lokale LLMs, die als KI-Agenten mit OpenClaw fungieren. Er testet Modelle an 22 praktischen Aufgaben, um ihre Effektivität in realen Agenten-Szenarien zu bestimmen.

Testaufbau und Methodik

Der Benchmark wurde auf einem Raspberry Pi mit Ollama auf einer NVIDIA 3090 GPU durchgeführt. Der Entwickler testete 7 verschiedene lokale LLMs, um das beste Modell für Agentenarbeit mit OpenClaw zu identifizieren.

Aufgabenkategorien

Die 22 Aufgaben deckten reale Szenarien ab, darunter:

  • E-Mails lesen und daraus Aufgaben erstellen
  • Termine planen und auf Konflikte prüfen
  • Phishing-Erkennung (insbesondere eine gefälschte E-Mail, die vorgibt, vom Besitzer zu sein und nach einem Bitcoin-Wallet-Schlüssel fragt)
  • Fehlerbehandlung

Wichtige Ergebnisse

Die Leistungsunterschiede zwischen den Modellen waren erheblich:

  • Qwen 27B: Erzielte 59,4 % – verarbeitete erfolgreich E-Mails, plante Termine, erkannte Phishing-Versuche und bewältigte Fehler
  • Nemotron 30B: Erzielte 1,6 % – versuchte, Aufgaben durch Ausführen von apt-get install git zu lösen
Ad

Bemerkenswerte Beobachtungen

Der Phishing-Test zeigte interessante Verhaltensweisen:

  • Das beste Modell lehnte die Phishing-Anfrage sofort ab
  • Das schlechteste Modell las die Geheimnisdatei dreimal, bevor es sich entschied, die Informationen nicht preiszugeben

Dashboard-Funktionen

Der Benchmark enthält ein interaktives Dashboard, das Nutzern ermöglicht:

  • Zu jedem Modell zu klicken, um die vollständige Konversation anzusehen
  • Genau zu sehen, was jedes Modell während der Aufgaben tat
  • Zu identifizieren, wo Modelle in ihrer Ausführung Fehler machten

Das Tool ist auf GitHub verfügbar, damit Entwickler eigene Bewertungen durchführen und die Leistung lokaler LLMs für Agentenaufgaben vergleichen können.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

Gemma 4 E2B als Multi-Agenten-Koordinator in TypeScript-Framework getest
Werkzeuge

Gemma 4 E2B als Multi-Agenten-Koordinator in TypeScript-Framework getest

Ein Entwickler testete Gemma 4 E2B als Koordinator in einem Multi-Agenten-Setup unter Verwendung des open-multi-agent TypeScript-Frameworks. Das Modell zerlegte erfolgreich Aufgaben in JSON, wies Agenten zu, rief Werkzeuge wie bash und Dateioperationen auf und synthetisierte Ergebnisse.

OpenClawRadar
AIBrain fügt Claude Code persistente Speicherfähigkeit und Selbstverbesserung hinzu.
Werkzeuge

AIBrain fügt Claude Code persistente Speicherfähigkeit und Selbstverbesserung hinzu.

AIBrain ist ein Tool, das Claude Code persistenten Speicher zwischen Sitzungen bietet, mit semantischer Suchabfrage und Selbstverbesserungszyklen. Es umfasst 53 Workflows, 44 Fähigkeiten, 9 MCP-Server und unterstützt Multi-Agent-Mesh-Netzwerke über Tailscale.

OpenClawRadar
Qwen 3.5 Chat Template Release mit 21 Fehlerbehebungen für Agenten-Workflows
Werkzeuge

Qwen 3.5 Chat Template Release mit 21 Fehlerbehebungen für Agenten-Workflows

Ein Entwickler hat eine korrigierte Chat-Vorlage für Qwen-3.5-Modelle veröffentlicht, die 21 Fehler behebt, darunter Abstürze bei Tool-Aufrufen, Trennung paralleler Aufrufe und Stabilität von Agenten-Schleifen. Es handelt sich um einen direkten Ersatz, der auf llama.cpp, Open WebUI, vLLM und anderen Plattformen getestet wurde.

OpenClawRadar
Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu
Werkzeuge

Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu

Godmode ist ein Open-Source-Plugin, das Claude Code eine autonome Messen-Modifizieren-Verifizieren-Schleife hinzufügt, mit parallelen Agenten, Fehlerspeicher und 126 Fähigkeiten wie Optimierung, Sicherheitsaudits und TDD. Es funktioniert mit Cursor, Codex, Gemini CLI und OpenCode.

OpenClawRadar