Open-Source Benchmark Runner zum Testen von OpenClaw-Agenten in realen Workflows

✍️ OpenClawRadar📅 Veröffentlicht: 14. Mai 2026🔗 Source
Open-Source Benchmark Runner zum Testen von OpenClaw-Agenten in realen Workflows
Ad

Ein Reddit-Nutzer hat ein Open-Source-Tool namens personal_agent_eval (Repo: github.com/javiersgjavi/personal_agent_eval) veröffentlicht, um OpenClaw-Agenten an realistischen, unübersichtlichen Workflows zu benchmarken – nicht an öffentlichen Spielzeugdatensätzen.

Workflow

Definieren Sie Testfälle als YAML-Dateien mit:

  • Eingabenachrichten
  • Erwarteten Artefakten
  • Bewertungskriterien
  • Deterministischen Prüfungen
  • Ausführungs- und Bewerterprofilen

Der Ausführer führt Fälle gegen eine echte OpenClaw-Instanz aus, speichert Ausgaben, bewertet Ausführungen und erstellt Berichte und Diagramme.

Hauptfunktion: Import realer Workspaces

Sie können Ihren tatsächlichen OpenClaw-Workspace importieren – einschließlich Speicher, Fähigkeiten, Dateien, Prompts und Kontext – statt einer abgespeckten Nachbildung. Der Agent läuft in einer echten OpenClaw-Instanz und testet genau den Agenten, den Sie täglich verwenden.

Private Bewertungssets

Der Autor veröffentlicht seine privaten Bewertungssets explizit nicht, um zu vermeiden, dass öffentliche Benchmarks veralten. Das Repo enthält jedoch Beispiel-Fälle, Konfigurationen, Bewertungsprofile, deterministische Prüfungen und Diagrammerstellung, sodass Sie Ihre eigene private Suite aufbauen können.

Ad

SKILL.md zur Agentenunterstützung

Eine SKILL.md-Datei im Repo soll einem Agenten genügend Kontext geben, um Ihnen bei der Definition neuer Benchmark-Fälle, Ausführungsprofile, Bewertungskriterien und deterministischer Prüfungen zu helfen – und reduziert manuelle Bearbeitung.

Beispielergebnisse (Private Ausführung des Autors)

Der Autor teilte einen Einzellauf-Vergleich (Metrik unklar, wahrscheinlich gewichteter Durchschnitt 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Interessanter als die Bewertungen: Fehlermodi. Manche Modelle argumentieren gut, sind aber unbeholfen im Umgang mit Werkzeugen; günstigere Modelle verschlechtern sich bei langen oder zustandsbehafteten Aufgaben; einige Fehler sind modellbedingt, andere sind OpenClaw-/Tooling-Grenzfälle, die durch das Benchmark aufgedeckt werden.

Für wen es gedacht ist

OpenClaw-Nutzer, die Agenten für reale Arbeit einsetzen und Modelle an ihren eigenen privaten Aufgaben vergleichen möchten, statt aufgrund von Bauchgefühl oder generischen Ranglisten zu argumentieren.

📖 Lesen Sie die vollständige Quelle: r/openclaw

Ad

👀 Siehe auch

Hippo v0.21.0: Biologisch inspiriertes Gedächtnis für KI-Agenten mit Multi-Tool-Unterstützung
Werkzeuge

Hippo v0.21.0: Biologisch inspiriertes Gedächtnis für KI-Agenten mit Multi-Tool-Unterstützung

Hippo v0.21.0 führt eine Ein-Kommando-Einrichtung für mehrere KI-Codierungswerkzeuge ein, darunter Claude Code, OpenCode, OpenClaw, Codex, Cursor und Pi. Das Speichersystem bietet Verfall, Abrufverstärkung und Konsolidierung ohne Laufzeitabhängigkeiten.

OpenClawRadar
🦀
Werkzeuge

Agentalmanac: Ein Katalog von 23 MCP-Servern mit einfügebereiten JSON-Konfigurationen

Reddit-Nutzer katalogisiert 23 MCP-Server mit einfügebereiten Konfigurationen für Claude Desktop, Cursor und Continue. Leitet um archivierte Server zu gewarteten Alternativen weiter. Gehostete Demo läuft auf Cloudflare Workers.

OpenClawRadar
Kontext-Gateway: Ein Open-Source-Proxy zur Komprimierung von KI-Agenten-Kontext
Werkzeuge

Kontext-Gateway: Ein Open-Source-Proxy zur Komprimierung von KI-Agenten-Kontext

Context Gateway ist ein Open-Source-Proxy, der zwischen Coding-Agenten und LLMs sitzt und Tool-Ausgaben komprimiert, bevor sie in das Kontextfenster gelangen. Es verwendet kleine Sprachmodelle, um Signale im Kontext zu erkennen, führt Hintergrundkomprimierung bei 85% Fensterkapazität durch und beinhaltet Ausgabenobergrenzen, ein Dashboard und Slack-Benachrichtigungen.

OpenClawRadar
OpenClaw-Speicherverlustbehebung mit dem Mem0-Plugin
Werkzeuge

OpenClaw-Speicherverlustbehebung mit dem Mem0-Plugin

OpenClaw-Agents erleiden Gedächtnisverlust aufgrund von Kontextkomprimierung, die Dateien wie MEMORY.md überschreibt. Das Mem0-Plugin löst dies, indem es das Gedächtnis außerhalb des Kontextfensters mit automatischer Erinnerung und automatischer Erfassung verschiebt.

OpenClawRadar