Структурированный рабочий процесс побеждает режим планирования и суперсилы в тесте AI DES

Пост на Reddit делится результатами нового бенчмарка AI-assisted Discrete-Event Simulation (DES). Работа с рабочим процессом Ouroboros (ooo) в Claude Code заняла первое место, обойдя как встроенный режим планирования Claude, так и стеки навыков 'суперспособностей'.
Детали бенчмарка
Бенчмарк проверяет полное понимание реальной системы — системы транспортировки руды на шахте с грузовиками, пунктами погрузки и разгрузки, маршрутами и очередями. Работы оцениваются по:
- Пониманию структуры системы
- Абстрагированию в модель дискретно-событийного моделирования
- Проектированию событий, изменений состояний и KPI
- Созданию исполняемого кода симуляции
- Интерпретации результатов (узкие места, пропускная способность, время ожидания)
- Генерации читаемых артефактов (диаграммы топологии, анимации)
Производительность Ouroboros
Решение Ouroboros включало рабочий код DES, диаграмму топологии шахтной системы и анимацию движения грузовиков с рудой. Примечательно, что когда MCP-сервер вышел из строя в середине работы, Ouroboros переключился на путь на основе навыков и завершил задачу — демонстрируя восстановление и перенаправление в реальных развертываниях.
Сравнение
- Режим планирования (облегченное планирование) — достойный базовый уровень
- Суперспособности / стеки навыков — хуже режима планирования в этой задаче
- Ouroboros (структурированный: уточнить → спланировать → выполнить → оценить → восстановить → повторить) — лучший
Результат показывает, что структурирование рабочего процесса вокруг определения проблемы, планирования, выполнения, оценки и восстановления эффективнее, чем нагромождение инструкций и больших навыков.
Ouroboros: https://github.com/Q00/ouroboros
Бенчмарк: https://simulation-bench.fly.dev/
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

NVIDIA представила процессор Vera для агентных задач искусственного интеллекта
NVIDIA представила процессор Vera CPU, специально разработанный для агентного ИИ и задач обучения с подкреплением. По заявлению компании, он обеспечивает на 50% более высокую производительность и вдвое большую эффективность по сравнению с традиционными процессорами для стоечных систем.

GitHub отключает возможность Copilot вставлять рекламу в pull-запросы после негативной реакции разработчиков.
GitHub отключил функцию Copilot, которая позволяла вставлять рекламные 'советы' в pull requests после того, как разработчики обнаружили, что она добавляет рекламу таких инструментов, как Raycast. Функция, позволявшая Copilot редактировать PR, которые он не создавал, когда его упоминали, была отключена после обратной связи сообщества.

Нейроморфная машина Изинга на FPGA решает сложные комбинаторные задачи
Нейроморфная машина Изинга, реализованная на FPGA, использует физику квантового туннелирования и архитектуру, вдохновленную мозгом, для решения задач комбинаторной оптимизации, таких как сворачивание белков.

Проблема с UX в Claude Cowork: Постоянное поле ввода создает ложные ожидания непрерывности
Пользователь выявил проблему UX в Claude Cowork, где постоянное поле ввода текста сохраняет черновик при переключении между задачами, но сбрасывает контекст и теряет вложения, создавая противоречивые сигналы о непрерывности.