構造化ワークフローがAI DESベンチマークで計画モードとスーパーパワーを凌駕

Redditの投稿で、新しいAI支援離散イベントシミュレーション(DES)ベンチマークの結果が共有されました。Claude Code内でOuroborosワークフロー(ooo)を使用した提出物が1位を獲得し、Claudeの組み込みプランモードや「スーパーパワー」fat-skillスタックの両方を打ち負かしました。
ベンチマークの詳細
このベンチマークは、トラック、積み込みポイント、ダンプポイント、ルート、待ち行列を備えた鉱山運搬システムという現実世界のシステムの完全な理解をテストします。提出物は以下の基準で評価されます:
- システム構造の理解
- 離散イベントシミュレーションモデルへの抽象化
- イベント、状態変化、KPIの設計
- 実行可能なシミュレーションコードの作成
- 結果の解釈(ボトルネック、スループット、待ち時間)
- 人間が読める成果物(トポロジ図、アニメーション)の生成
Ouroborosのパフォーマンス
Ouroborosの提出物には、動作するDESコード、鉱山システムのトポロジ図、そして鉱石を運搬するトラックのアニメーションが含まれていました。特筆すべきは、MCPサーバーが実行中に失敗したとき、Ouroborosがスキルベースのパスにフォールバックしてタスクを完了したことです。これは実際の展開における回復とルート変更の能力を示しています。
比較
- プランモード(軽量計画) — まあまあのベースライン
- スーパーパワー / fat-skillスタック — このタスクではプランモードより悪い
- Ouroboros(構造化:明確化→計画→実行→評価→回復→反復) — 最良
この結果は、問題定義、計画、実行、評価、回復の周りにワークフローを構造化することが、より多くの指示や大きなスキルを積み重ねるよりも効果的であることを示唆しています。
Ouroboros: https://github.com/Q00/ouroboros
ベンチマーク: https://simulation-bench.fly.dev/
📖 完全なソースを読む: r/ClaudeAI
👀 See Also

Anthropicは、AI制限をめぐる国防総省のブラックリスト指定を防ぐため訴訟を起こす
ロイター通信がHacker Newsで共有した報道によると、AnthropicはAI利用制限をめぐり国防総省によるブラックリスト指定を阻止するため訴訟を起こした。

研究によると、性格はLlamaやQwenではなく、Claudeの自己修正に影響を与えることが示されています。
研究者がClaude、Llama、Qwenの3つのLLMファミリーで、ガードレールなしの自己修正を23の実験でテストしました。主な発見:性格プロファイルがClaudeの自己修正能力に影響を与え、高い率直さはすべてのエラーを捕捉し、低い率直さは何も捕捉しませんでした。LlamaとQwenは同じプロンプトでも自己修正しませんでした。

メディケアのACCESSプログラム:AIエージェント向けに構築された支払いモデル、詳細はこちら
CMSのACCESSプログラムは、医師との対面時間だけでなく、AIによる慢性疾患管理にも支払いを行う。Pair Teamの音声AI「Flora」により救急外来受診が50%減少。コホートは7月5日に開始。

Redditの議論は、チャットボットからローカル実行可能な自律エージェントへの移行を強調しています。
Redditの投稿では、具体的な例を用いてチャットボットと自律エージェントを区別し、LLaMAなどのモデルがプライベートワークステーションで実行されるローカル実行へのトレンドに注目しています。