Exécuteur de benchmarks open-source pour tester les agents OpenClaw sur des workflows réels

Un utilisateur de Reddit a publié un outil open-source appelé personal_agent_eval (repo : github.com/javiersgjavi/personal_agent_eval) pour évaluer les agents OpenClaw sur des flux de travail réalistes et désordonnés — et non sur des ensembles de données publics factices.
Flux de travail
Définissez des cas de test sous forme de fichiers YAML contenant :
- Messages d'entrée
- Artéfacts attendus
- Critères d'évaluation
- Vérifications déterministes
- Profils d'exécution et profils de jugement
L'exécuteur lance les cas sur une instance OpenClaw réelle, stocke les sorties, évalue les exécutions et génère des rapports et des graphiques.
Fonctionnalité clé : Importation d'espace de travail réel
Vous pouvez importer votre espace de travail OpenClaw réel — y compris la mémoire, les compétences, les fichiers, les invites et le contexte — au lieu d'une imitation simplifiée. L'agent s'exécute dans une véritable instance OpenClaw, testant exactement l'agent que vous utilisez quotidiennement.
Ensembles d'évaluation privés
L'auteur ne publie explicitement pas ses ensembles d'évaluation privés pour éviter que les benchmarks publics ne deviennent obsolètes. Cependant, le repo inclut des cas d'exemple, des configurations, des profils d'évaluation, des vérifications déterministes et la génération de graphiques pour que vous puissiez construire votre propre suite privée.
SKILL.md pour l'assistance à l'agent
Un fichier SKILL.md dans le repo est conçu pour donner à un agent suffisamment de contexte pour vous aider à définir de nouveaux cas de benchmark, profils d'exécution, critères d'évaluation et vérifications déterministes — réduisant l'édition manuelle.
Exemples de résultats (exécution privée de l'auteur)
L'auteur a partagé une comparaison sur une seule exécution (métrique non précisée, probablement moyenne pondérée 0-10) :
Claude Opus 4.6 - 9.44 GLM 5.1 - 9.31 GPT-5.5 - 9.31 Claude Sonnet 4.6 - 9.25 DeepSeek V4 Flash - 8.61 Gemma 4 31B - 8.39 DeepSeek V4 Pro - 8.28 Kimi K2.6 - 7.97
Plus intéressant que les scores : les modes d'échec. Certains modèles raisonnent bien mais sont maladroits avec les outils ; les modèles moins chers se dégradent sur les tâches longues ou avec état ; certains échecs sont comportementaux, d'autres sont des cas limites d'OpenClaw/outillage exposés par le benchmark.
À qui cela s'adresse
Aux utilisateurs d'OpenClaw qui exploitent des agents pour un travail réel et souhaitent comparer les modèles sur leurs propres tâches privées plutôt que de débattre à partir de ressentis ou de classements génériques.
📖 Source : r/openclaw
👀 See Also

Aura Research : Un outil local compile des documents en un wiki navigable par IA avec mémoire persistante
Aura Research est un outil open-source qui traite des documents bruts (PDF, articles, notes, code, 60+ formats) en un wiki structuré en markdown avec des articles liés, des pages de concepts et un index principal. Il compresse le tout dans une archive .aura optimisée pour la recherche RAG et fonctionne à 100% localement sans que vos données ne quittent votre machine.

Système Multi-Agent pour l'Analyse Concurrentielle Approfondie avec Claude
Un développeur a créé un système d'agents à trois vagues qui va au-delà des simples listes de concurrents pour extraire des informations sur les prix, les tendances de sentiment des clients et les signaux stratégiques grâce à une recherche structurée multi-sources.

PromoClock : Suiveur de fuseaux horaires pour les heures creuses 2x de Claude, développé avec Claude 4.6
Un développeur a créé PromoClock.co, un outil gratuit qui convertit automatiquement les heures promotionnelles hors pointe de Claude « 5-11h PT / 12-18h GMT » en heure locale, utilisant Claude 4.6 pour la logique des fuseaux horaires, une configuration Next.js 15 et la conception de l'interface utilisateur.

Any Buddy v2.0.0 Ajoute une Fonctionnalité d'Aperçu pour les Claude Code Buddies
Any Buddy v2.0.0 introduit une fonctionnalité de prévisualisation qui permet aux utilisateurs de tester différents copains avant de les appliquer au code Claude, ainsi que des correctifs spécifiques aux plateformes Linux, Mac et Windows. L'outil a gagné 160 étoiles GitHub depuis sa sortie.