Jake Benchmark v1: Lokale LLM-Leistungstests für OpenClaw KI-Agenten

Der Jake Benchmark v1 ist ein Leistungsbewertungstool für lokale LLMs, die als KI-Agenten mit OpenClaw fungieren. Er testet Modelle an 22 praktischen Aufgaben, um ihre Effektivität in realen Agenten-Szenarien zu bestimmen.
Testaufbau und Methodik
Der Benchmark wurde auf einem Raspberry Pi mit Ollama auf einer NVIDIA 3090 GPU durchgeführt. Der Entwickler testete 7 verschiedene lokale LLMs, um das beste Modell für Agentenarbeit mit OpenClaw zu identifizieren.
Aufgabenkategorien
Die 22 Aufgaben deckten reale Szenarien ab, darunter:
- E-Mails lesen und daraus Aufgaben erstellen
- Termine planen und auf Konflikte prüfen
- Phishing-Erkennung (insbesondere eine gefälschte E-Mail, die vorgibt, vom Besitzer zu sein und nach einem Bitcoin-Wallet-Schlüssel fragt)
- Fehlerbehandlung
Wichtige Ergebnisse
Die Leistungsunterschiede zwischen den Modellen waren erheblich:
- Qwen 27B: Erzielte 59,4 % – verarbeitete erfolgreich E-Mails, plante Termine, erkannte Phishing-Versuche und bewältigte Fehler
- Nemotron 30B: Erzielte 1,6 % – versuchte, Aufgaben durch Ausführen von
apt-get install gitzu lösen
Bemerkenswerte Beobachtungen
Der Phishing-Test zeigte interessante Verhaltensweisen:
- Das beste Modell lehnte die Phishing-Anfrage sofort ab
- Das schlechteste Modell las die Geheimnisdatei dreimal, bevor es sich entschied, die Informationen nicht preiszugeben
Dashboard-Funktionen
Der Benchmark enthält ein interaktives Dashboard, das Nutzern ermöglicht:
- Zu jedem Modell zu klicken, um die vollständige Konversation anzusehen
- Genau zu sehen, was jedes Modell während der Aufgaben tat
- Zu identifizieren, wo Modelle in ihrer Ausführung Fehler machten
Das Tool ist auf GitHub verfügbar, damit Entwickler eigene Bewertungen durchführen und die Leistung lokaler LLMs für Agentenaufgaben vergleichen können.
📖 Read the full source: r/openclaw
👀 Siehe auch

Gemma 4 E2B als Multi-Agenten-Koordinator in TypeScript-Framework getest
Ein Entwickler testete Gemma 4 E2B als Koordinator in einem Multi-Agenten-Setup unter Verwendung des open-multi-agent TypeScript-Frameworks. Das Modell zerlegte erfolgreich Aufgaben in JSON, wies Agenten zu, rief Werkzeuge wie bash und Dateioperationen auf und synthetisierte Ergebnisse.

AIBrain fügt Claude Code persistente Speicherfähigkeit und Selbstverbesserung hinzu.
AIBrain ist ein Tool, das Claude Code persistenten Speicher zwischen Sitzungen bietet, mit semantischer Suchabfrage und Selbstverbesserungszyklen. Es umfasst 53 Workflows, 44 Fähigkeiten, 9 MCP-Server und unterstützt Multi-Agent-Mesh-Netzwerke über Tailscale.

Qwen 3.5 Chat Template Release mit 21 Fehlerbehebungen für Agenten-Workflows
Ein Entwickler hat eine korrigierte Chat-Vorlage für Qwen-3.5-Modelle veröffentlicht, die 21 Fehler behebt, darunter Abstürze bei Tool-Aufrufen, Trennung paralleler Aufrufe und Stabilität von Agenten-Schleifen. Es handelt sich um einen direkten Ersatz, der auf llama.cpp, Open WebUI, vLLM und anderen Plattformen getestet wurde.

Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu
Godmode ist ein Open-Source-Plugin, das Claude Code eine autonome Messen-Modifizieren-Verifizieren-Schleife hinzufügt, mit parallelen Agenten, Fehlerspeicher und 126 Fähigkeiten wie Optimierung, Sicherheitsaudits und TDD. Es funktioniert mit Cursor, Codex, Gemini CLI und OpenCode.