Open-Source Benchmark Runner: Teste OpenClaw-Agenten in Workflows

Ein Reddit-Nutzer hat ein Open-Source-Tool namens personal_agent_eval (Repo: github.com/javiersgjavi/personal_agent_eval) veröffentlicht, um OpenClaw-Agenten an realistischen, unübersichtlichen Workflows zu benchmarken – nicht an öffentlichen Spielzeugdatensätzen.

Workflow

Definieren Sie Testfälle als YAML-Dateien mit:

Eingabenachrichten
Erwarteten Artefakten
Bewertungskriterien
Deterministischen Prüfungen
Ausführungs- und Bewerterprofilen

Der Ausführer führt Fälle gegen eine echte OpenClaw-Instanz aus, speichert Ausgaben, bewertet Ausführungen und erstellt Berichte und Diagramme.

Hauptfunktion: Import realer Workspaces

Sie können Ihren tatsächlichen OpenClaw-Workspace importieren – einschließlich Speicher, Fähigkeiten, Dateien, Prompts und Kontext – statt einer abgespeckten Nachbildung. Der Agent läuft in einer echten OpenClaw-Instanz und testet genau den Agenten, den Sie täglich verwenden.

Private Bewertungssets

Der Autor veröffentlicht seine privaten Bewertungssets explizit nicht, um zu vermeiden, dass öffentliche Benchmarks veralten. Das Repo enthält jedoch Beispiel-Fälle, Konfigurationen, Bewertungsprofile, deterministische Prüfungen und Diagrammerstellung, sodass Sie Ihre eigene private Suite aufbauen können.

SKILL.md zur Agentenunterstützung

Eine SKILL.md-Datei im Repo soll einem Agenten genügend Kontext geben, um Ihnen bei der Definition neuer Benchmark-Fälle, Ausführungsprofile, Bewertungskriterien und deterministischer Prüfungen zu helfen – und reduziert manuelle Bearbeitung.

Beispielergebnisse (Private Ausführung des Autors)

Der Autor teilte einen Einzellauf-Vergleich (Metrik unklar, wahrscheinlich gewichteter Durchschnitt 0-10):

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Interessanter als die Bewertungen: Fehlermodi. Manche Modelle argumentieren gut, sind aber unbeholfen im Umgang mit Werkzeugen; günstigere Modelle verschlechtern sich bei langen oder zustandsbehafteten Aufgaben; einige Fehler sind modellbedingt, andere sind OpenClaw-/Tooling-Grenzfälle, die durch das Benchmark aufgedeckt werden.

Für wen es gedacht ist

OpenClaw-Nutzer, die Agenten für reale Arbeit einsetzen und Modelle an ihren eigenen privaten Aufgaben vergleichen möchten, statt aufgrund von Bauchgefühl oder generischen Ranglisten zu argumentieren.

📖 Lesen Sie die vollständige Quelle: r/openclaw