Ouroboros classé n°1 sur le benchmark DES : dépasse Claude et Superpowers

Un post Reddit partage les résultats du nouveau benchmark de simulation à événements discrets (DES) assistée par IA. La soumission utilisant le workflow Ouroboros (ooo) dans Claude Code a été classée numéro 1, battant à la fois le mode plan intégré de Claude et les piles fat-skill 'superpowers'.

Détails du benchmark

Le benchmark teste la compréhension complète d'un système réel — un système de transport minier avec des camions, des points de chargement, des points de déchargement, des itinéraires et des files d'attente. Les soumissions sont évaluées sur :

Compréhension de la structure du système
Abstraction en un modèle de simulation à événements discrets
Conception des événements, des changements d'état et des KPI
Production de code de simulation exécutable
Interprétation des résultats (goulots d'étranglement, débit, temps d'attente)
Génération d'artefacts lisibles (diagrammes de topologie, animations)

Performance d'Ouroboros

La soumission Ouroboros incluait un code DES fonctionnel, un diagramme de topologie du système minier et une animation de camions transportant du minerai. Notamment, lorsque le serveur MCP a échoué en cours d'exécution, Ouroboros est revenu à un chemin basé sur les compétences et a terminé la tâche — démontrant la récupération et le réacheminement dans des déploiements réels.

Comparaison

Mode plan (planification légère) — référence décente
Superpowers / piles fat-skill — pires que le mode plan sur cette tâche
Ouroboros (structuré : clarifier → planifier → exécuter → évaluer → récupérer → itérer) — meilleur

Le résultat suggère que structurer le workflow autour de la définition du problème, de la planification, de l'exécution, de l'évaluation et de la récupération est plus efficace que d'accumuler plus d'instructions et de compétences plus grandes.

Ouroboros : https://github.com/Q00/ouroboros
Benchmark : https://simulation-bench.fly.dev/

📖 Lire la source complète : r/ClaudeAI