OpenClaw Benchmarks : testez vos agents sur des workflows réels

Un utilisateur de Reddit a publié un outil open-source appelé personal_agent_eval (repo : github.com/javiersgjavi/personal_agent_eval) pour évaluer les agents OpenClaw sur des flux de travail réalistes et désordonnés — et non sur des ensembles de données publics factices.

Flux de travail

Définissez des cas de test sous forme de fichiers YAML contenant :

Messages d'entrée
Artéfacts attendus
Critères d'évaluation
Vérifications déterministes
Profils d'exécution et profils de jugement

L'exécuteur lance les cas sur une instance OpenClaw réelle, stocke les sorties, évalue les exécutions et génère des rapports et des graphiques.

Fonctionnalité clé : Importation d'espace de travail réel

Vous pouvez importer votre espace de travail OpenClaw réel — y compris la mémoire, les compétences, les fichiers, les invites et le contexte — au lieu d'une imitation simplifiée. L'agent s'exécute dans une véritable instance OpenClaw, testant exactement l'agent que vous utilisez quotidiennement.

Ensembles d'évaluation privés

L'auteur ne publie explicitement pas ses ensembles d'évaluation privés pour éviter que les benchmarks publics ne deviennent obsolètes. Cependant, le repo inclut des cas d'exemple, des configurations, des profils d'évaluation, des vérifications déterministes et la génération de graphiques pour que vous puissiez construire votre propre suite privée.

SKILL.md pour l'assistance à l'agent

Un fichier SKILL.md dans le repo est conçu pour donner à un agent suffisamment de contexte pour vous aider à définir de nouveaux cas de benchmark, profils d'exécution, critères d'évaluation et vérifications déterministes — réduisant l'édition manuelle.

Exemples de résultats (exécution privée de l'auteur)

L'auteur a partagé une comparaison sur une seule exécution (métrique non précisée, probablement moyenne pondérée 0-10) :

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Plus intéressant que les scores : les modes d'échec. Certains modèles raisonnent bien mais sont maladroits avec les outils ; les modèles moins chers se dégradent sur les tâches longues ou avec état ; certains échecs sont comportementaux, d'autres sont des cas limites d'OpenClaw/outillage exposés par le benchmark.

À qui cela s'adresse

Aux utilisateurs d'OpenClaw qui exploitent des agents pour un travail réel et souhaitent comparer les modèles sur leurs propres tâches privées plutôt que de débattre à partir de ressentis ou de classements génériques.

📖 Source : r/openclaw