Exécuteur de benchmarks open-source pour tester les agents OpenClaw sur des workflows réels

✍️ OpenClawRadar📅 Publié: May 14, 2026🔗 Source
Exécuteur de benchmarks open-source pour tester les agents OpenClaw sur des workflows réels
Ad

Un utilisateur de Reddit a publié un outil open-source appelé personal_agent_eval (repo : github.com/javiersgjavi/personal_agent_eval) pour évaluer les agents OpenClaw sur des flux de travail réalistes et désordonnés — et non sur des ensembles de données publics factices.

Flux de travail

Définissez des cas de test sous forme de fichiers YAML contenant :

  • Messages d'entrée
  • Artéfacts attendus
  • Critères d'évaluation
  • Vérifications déterministes
  • Profils d'exécution et profils de jugement

L'exécuteur lance les cas sur une instance OpenClaw réelle, stocke les sorties, évalue les exécutions et génère des rapports et des graphiques.

Fonctionnalité clé : Importation d'espace de travail réel

Vous pouvez importer votre espace de travail OpenClaw réel — y compris la mémoire, les compétences, les fichiers, les invites et le contexte — au lieu d'une imitation simplifiée. L'agent s'exécute dans une véritable instance OpenClaw, testant exactement l'agent que vous utilisez quotidiennement.

Ensembles d'évaluation privés

L'auteur ne publie explicitement pas ses ensembles d'évaluation privés pour éviter que les benchmarks publics ne deviennent obsolètes. Cependant, le repo inclut des cas d'exemple, des configurations, des profils d'évaluation, des vérifications déterministes et la génération de graphiques pour que vous puissiez construire votre propre suite privée.

Ad

SKILL.md pour l'assistance à l'agent

Un fichier SKILL.md dans le repo est conçu pour donner à un agent suffisamment de contexte pour vous aider à définir de nouveaux cas de benchmark, profils d'exécution, critères d'évaluation et vérifications déterministes — réduisant l'édition manuelle.

Exemples de résultats (exécution privée de l'auteur)

L'auteur a partagé une comparaison sur une seule exécution (métrique non précisée, probablement moyenne pondérée 0-10) :

Claude Opus 4.6 - 9.44
GLM 5.1 - 9.31
GPT-5.5 - 9.31
Claude Sonnet 4.6 - 9.25
DeepSeek V4 Flash - 8.61
Gemma 4 31B - 8.39
DeepSeek V4 Pro - 8.28
Kimi K2.6 - 7.97

Plus intéressant que les scores : les modes d'échec. Certains modèles raisonnent bien mais sont maladroits avec les outils ; les modèles moins chers se dégradent sur les tâches longues ou avec état ; certains échecs sont comportementaux, d'autres sont des cas limites d'OpenClaw/outillage exposés par le benchmark.

À qui cela s'adresse

Aux utilisateurs d'OpenClaw qui exploitent des agents pour un travail réel et souhaitent comparer les modèles sur leurs propres tâches privées plutôt que de débattre à partir de ressentis ou de classements génériques.

📖 Source : r/openclaw

Ad

👀 See Also

Aura Research : Un outil local compile des documents en un wiki navigable par IA avec mémoire persistante
Tools

Aura Research : Un outil local compile des documents en un wiki navigable par IA avec mémoire persistante

Aura Research est un outil open-source qui traite des documents bruts (PDF, articles, notes, code, 60+ formats) en un wiki structuré en markdown avec des articles liés, des pages de concepts et un index principal. Il compresse le tout dans une archive .aura optimisée pour la recherche RAG et fonctionne à 100% localement sans que vos données ne quittent votre machine.

OpenClawRadar
Système Multi-Agent pour l'Analyse Concurrentielle Approfondie avec Claude
Tools

Système Multi-Agent pour l'Analyse Concurrentielle Approfondie avec Claude

Un développeur a créé un système d'agents à trois vagues qui va au-delà des simples listes de concurrents pour extraire des informations sur les prix, les tendances de sentiment des clients et les signaux stratégiques grâce à une recherche structurée multi-sources.

OpenClawRadar
PromoClock : Suiveur de fuseaux horaires pour les heures creuses 2x de Claude, développé avec Claude 4.6
Tools

PromoClock : Suiveur de fuseaux horaires pour les heures creuses 2x de Claude, développé avec Claude 4.6

Un développeur a créé PromoClock.co, un outil gratuit qui convertit automatiquement les heures promotionnelles hors pointe de Claude « 5-11h PT / 12-18h GMT » en heure locale, utilisant Claude 4.6 pour la logique des fuseaux horaires, une configuration Next.js 15 et la conception de l'interface utilisateur.

OpenClawRadar
Any Buddy v2.0.0 Ajoute une Fonctionnalité d'Aperçu pour les Claude Code Buddies
Tools

Any Buddy v2.0.0 Ajoute une Fonctionnalité d'Aperçu pour les Claude Code Buddies

Any Buddy v2.0.0 introduit une fonctionnalité de prévisualisation qui permet aux utilisateurs de tester différents copains avant de les appliquer au code Claude, ainsi que des correctifs spécifiques aux plateformes Linux, Mac et Windows. L'outil a gagné 160 étoiles GitHub depuis sa sortie.

OpenClawRadar