Ouroboros побеждает в AI DES: структурированный цикл vs планирование

Пост на Reddit делится результатами нового бенчмарка AI-assisted Discrete-Event Simulation (DES). Работа с рабочим процессом Ouroboros (ooo) в Claude Code заняла первое место, обойдя как встроенный режим планирования Claude, так и стеки навыков 'суперспособностей'.

Детали бенчмарка

Бенчмарк проверяет полное понимание реальной системы — системы транспортировки руды на шахте с грузовиками, пунктами погрузки и разгрузки, маршрутами и очередями. Работы оцениваются по:

Пониманию структуры системы
Абстрагированию в модель дискретно-событийного моделирования
Проектированию событий, изменений состояний и KPI
Созданию исполняемого кода симуляции
Интерпретации результатов (узкие места, пропускная способность, время ожидания)
Генерации читаемых артефактов (диаграммы топологии, анимации)

Производительность Ouroboros

Решение Ouroboros включало рабочий код DES, диаграмму топологии шахтной системы и анимацию движения грузовиков с рудой. Примечательно, что когда MCP-сервер вышел из строя в середине работы, Ouroboros переключился на путь на основе навыков и завершил задачу — демонстрируя восстановление и перенаправление в реальных развертываниях.

Сравнение

Режим планирования (облегченное планирование) — достойный базовый уровень
Суперспособности / стеки навыков — хуже режима планирования в этой задаче
Ouroboros (структурированный: уточнить → спланировать → выполнить → оценить → восстановить → повторить) — лучший

Результат показывает, что структурирование рабочего процесса вокруг определения проблемы, планирования, выполнения, оценки и восстановления эффективнее, чем нагромождение инструкций и больших навыков.

Ouroboros: https://github.com/Q00/ouroboros
Бенчмарк: https://simulation-bench.fly.dev/

📖 Читать полный источник: r/ClaudeAI

Структурированный рабочий процесс побеждает режим планирования и суперсилы в тесте AI DES

Детали бенчмарка

Производительность Ouroboros

Сравнение

👀 Смотрите также

NVIDIA представила процессор Vera для агентных задач искусственного интеллекта

GitHub отключает возможность Copilot вставлять рекламу в pull-запросы после негативной реакции разработчиков.

Нейроморфная машина Изинга на FPGA решает сложные комбинаторные задачи

Проблема с UX в Claude Cowork: Постоянное поле ввода создает ложные ожидания непрерывности