Flux de travail structuré dépasse le mode plan et les superpouvoirs sur le benchmark AI DES

Un post Reddit partage les résultats du nouveau benchmark de simulation à événements discrets (DES) assistée par IA. La soumission utilisant le workflow Ouroboros (ooo) dans Claude Code a été classée numéro 1, battant à la fois le mode plan intégré de Claude et les piles fat-skill 'superpowers'.
Détails du benchmark
Le benchmark teste la compréhension complète d'un système réel — un système de transport minier avec des camions, des points de chargement, des points de déchargement, des itinéraires et des files d'attente. Les soumissions sont évaluées sur :
- Compréhension de la structure du système
- Abstraction en un modèle de simulation à événements discrets
- Conception des événements, des changements d'état et des KPI
- Production de code de simulation exécutable
- Interprétation des résultats (goulots d'étranglement, débit, temps d'attente)
- Génération d'artefacts lisibles (diagrammes de topologie, animations)
Performance d'Ouroboros
La soumission Ouroboros incluait un code DES fonctionnel, un diagramme de topologie du système minier et une animation de camions transportant du minerai. Notamment, lorsque le serveur MCP a échoué en cours d'exécution, Ouroboros est revenu à un chemin basé sur les compétences et a terminé la tâche — démontrant la récupération et le réacheminement dans des déploiements réels.
Comparaison
- Mode plan (planification légère) — référence décente
- Superpowers / piles fat-skill — pires que le mode plan sur cette tâche
- Ouroboros (structuré : clarifier → planifier → exécuter → évaluer → récupérer → itérer) — meilleur
Le résultat suggère que structurer le workflow autour de la définition du problème, de la planification, de l'exécution, de l'évaluation et de la récupération est plus efficace que d'accumuler plus d'instructions et de compétences plus grandes.
Ouroboros : https://github.com/Q00/ouroboros
Benchmark : https://simulation-bench.fly.dev/
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Prédiction multi-token MTP : génération de tokens 2x plus rapide sur AMD Strix Halo & Radeon 9700 AI Pro
MTP accélère l'inférence des LLM jusqu'à 2x, particulièrement pour les agents de codage. La vidéo couvre le fonctionnement de MTP et ses performances sur Qwen 3.6 avec AMD Strix Halo et Dual Radeon 9700.

Protocole de Convergence Quumble v5 : Résultats de l'Expérimentation LLM Multi-Architecture
Le Protocole de Convergence Quumble v5 teste si des instances indépendantes de LLM convergent sur des descriptions de créatures imaginaires lorsqu'on leur donne des mots dépourvus de sens. Les résultats montrent que Claude (Opus 4.6 & Sonnet 4.6) et GPT-5.3 ont indépendamment produit une créature petite, ronde, douce, teintée de lavande, bioluminescente et qui bourdonne à partir du mot 'quumble'.

YC-Bench évalue les LLM en tant que PDG de startups, GLM-5 démontre une forte rentabilité
Des chercheurs ont créé YC-Bench, un benchmark où les LLM jouent le rôle de PDG de startups simulées sur une année, gérant des employés, des contrats et des salaires. GLM-5 a atteint 1,21 million de dollars de fonds finaux moyens à 7,62 dollars par exécution, se situant à moins de 5 % de Claude Opus 4.6 qui coûtait 86 dollars par exécution.

La méthode basée sur la grammaire égale ou surpasse l'IA dans l'analyse de paternité d'œuvres.
Une étude de l'Université de Manchester a révélé que LambdaG, une méthode d'analyse de paternité basée sur la grammaire, égalait ou surpassait les principaux systèmes d'IA dans la plupart des ensembles de données de test, tout en offrant une plus grande transparence et un coût de calcul inférieur.