Strukturierter Workflow schlägt Planungsmodus und Superkräfte im KI-DES-Benchmark

Ein Reddit-Beitrag zeigt Ergebnisse der neuen KI-gestützten Benchmark für diskrete Ereignissimulationen (DES). Der Beitrag mit dem Ouroboros-Workflow (ooo) in Claude Code erreichte Platz 1 und schlug sowohl Claudes integrierten Plan-Modus als auch die 'Superpowers'-Fat-Skill-Stapel.
Benchmark-Details
Die Benchmark testet das vollständige Verständnis eines realen Systems – eines Minentransportsystems mit Lastwagen, Ladestellen, Entladestellen, Routen und Warteschlangen. Die Einreichungen werden bewertet nach:
- Verständnis der Systemstruktur
- Abstraktion in ein diskretes Ereignissimulationsmodell
- Entwurf von Ereignissen, Zustandsänderungen und KPIs
- Erstellung von ausführbarem Simulationscode
- Interpretation der Ergebnisse (Engpässe, Durchsatz, Wartezeiten)
- Generierung von menschenlesbaren Artefakten (Topologiediagramme, Animationen)
Ouroboros-Leistung
Die Ouroboros-Einreichung enthielt funktionierenden DES-Code, ein Topologiediagramm des Minensystems und eine Animation von Lastwagen, die Erz transportieren. Bemerkenswert: Als der MCP-Server mitten im Lauf ausfiel, griff Ouroboros auf einen fähigkeitsbasierten Pfad zurück und schloss die Aufgabe ab – ein Beispiel für Wiederherstellung und Umleitung in realen Einsätzen.
Vergleich
- Plan-Modus (leichtgewichtige Planung) – solide Basis
- Superpowers/Fat-Skill-Stapel – schlechter als der Plan-Modus bei dieser Aufgabe
- Ouroboros (strukturiert: klären → planen → ausführen → bewerten → wiederherstellen → iterieren) – am besten
Das Ergebnis legt nahe, dass die Strukturierung des Workflows um Problemdefinition, Planung, Ausführung, Bewertung und Wiederherstellung effektiver ist als das Hinzufügen weiterer Anweisungen und größerer Fähigkeiten.
Ouroboros: https://github.com/Q00/ouroboros
Benchmark: https://simulation-bench.fly.dev/
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Claude Code v2.1.119: Konfigurationspersistenz, GitLab-/Bitbucket-PR-Unterstützung und Dutzende Fehlerbehebungen
Claude Code v2.1.119 speichert /config-Einstellungen in ~/.claude/settings.json, unterstützt --from-pr für GitLab-MRs und Bitbucket-PRs und behebt über 25 Fehler, darunter CRLF-Einfügen, MCP-OAuth und Auto-Mode-Konflikte.

Cowork kann eine Chrome-Instanz auf einem anderen Rechner nutzen, ohne dass Sie es wissen
Ein Reddit-Nutzer entdeckte, dass Cowork Browser-Aufgaben mit einer Chrome-Instanz auf einem anderen Rechner (Windows) ausführen kann, die über eine Erweiterung gekoppelt und als isLocal: false gekennzeichnet ist – was nicht dokumentiert ist.

KI-Agenten definieren: Der Workflow-Test
Eine Reddit-Diskussion stellt die Frage, ob viele KI-Agenten-Produkte im Wesentlichen Chatbots mit einer Aufgabenliste sind, und schlägt einen Test vor, der auf ihrer Fähigkeit basiert, Arbeitsabläufe über mehrere Tools hinweg ohne manuelles Eingreifen abzuschließen.

Verstecktes Haustiersystem in Claude-Code-Leak entdeckt: Gacha-Mechanik mit ASCII-Animationen
Analyse des durchgesickerten Claude-Codes enthüllt ein verstecktes Begleittier-System mit 18 Arten, Seltenheitsstufen und ASCII-Animationen. Das System verwendet deterministisches Hashing von Benutzer-IDs, um einzigartige Tiere zu generieren, ohne Artendaten zu speichern.