Ouroboros-Workflow schlägt Planungsmodus und Superkräfte in KI-DES-Benchmark

Ein Reddit-Beitrag zeigt Ergebnisse der neuen KI-gestützten Benchmark für diskrete Ereignissimulationen (DES). Der Beitrag mit dem Ouroboros-Workflow (ooo) in Claude Code erreichte Platz 1 und schlug sowohl Claudes integrierten Plan-Modus als auch die 'Superpowers'-Fat-Skill-Stapel.

Benchmark-Details

Die Benchmark testet das vollständige Verständnis eines realen Systems – eines Minentransportsystems mit Lastwagen, Ladestellen, Entladestellen, Routen und Warteschlangen. Die Einreichungen werden bewertet nach:

Verständnis der Systemstruktur
Abstraktion in ein diskretes Ereignissimulationsmodell
Entwurf von Ereignissen, Zustandsänderungen und KPIs
Erstellung von ausführbarem Simulationscode
Interpretation der Ergebnisse (Engpässe, Durchsatz, Wartezeiten)
Generierung von menschenlesbaren Artefakten (Topologiediagramme, Animationen)

Ouroboros-Leistung

Die Ouroboros-Einreichung enthielt funktionierenden DES-Code, ein Topologiediagramm des Minensystems und eine Animation von Lastwagen, die Erz transportieren. Bemerkenswert: Als der MCP-Server mitten im Lauf ausfiel, griff Ouroboros auf einen fähigkeitsbasierten Pfad zurück und schloss die Aufgabe ab – ein Beispiel für Wiederherstellung und Umleitung in realen Einsätzen.

Vergleich

Plan-Modus (leichtgewichtige Planung) – solide Basis
Superpowers/Fat-Skill-Stapel – schlechter als der Plan-Modus bei dieser Aufgabe
Ouroboros (strukturiert: klären → planen → ausführen → bewerten → wiederherstellen → iterieren) – am besten

Das Ergebnis legt nahe, dass die Strukturierung des Workflows um Problemdefinition, Planung, Ausführung, Bewertung und Wiederherstellung effektiver ist als das Hinzufügen weiterer Anweisungen und größerer Fähigkeiten.

Ouroboros: https://github.com/Q00/ouroboros
Benchmark: https://simulation-bench.fly.dev/

📖 Vollständige Quelle lesen: r/ClaudeAI

Strukturierter Workflow schlägt Planungsmodus und Superkräfte im KI-DES-Benchmark

Benchmark-Details

Ouroboros-Leistung

Vergleich

👀 Siehe auch

Claude Code v2.1.119: Konfigurationspersistenz, GitLab-/Bitbucket-PR-Unterstützung und Dutzende Fehlerbehebungen

Cowork kann eine Chrome-Instanz auf einem anderen Rechner nutzen, ohne dass Sie es wissen

KI-Agenten definieren: Der Workflow-Test

Verstecktes Haustiersystem in Claude-Code-Leak entdeckt: Gacha-Mechanik mit ASCII-Animationen