Структурированный рабочий процесс побеждает режим планирования и суперсилы в тесте AI DES

✍️ OpenClawRadar📅 Опубликовано: 1 мая 2026 г.🔗 Source
Структурированный рабочий процесс побеждает режим планирования и суперсилы в тесте AI DES
Ad

Пост на Reddit делится результатами нового бенчмарка AI-assisted Discrete-Event Simulation (DES). Работа с рабочим процессом Ouroboros (ooo) в Claude Code заняла первое место, обойдя как встроенный режим планирования Claude, так и стеки навыков 'суперспособностей'.

Детали бенчмарка

Бенчмарк проверяет полное понимание реальной системы — системы транспортировки руды на шахте с грузовиками, пунктами погрузки и разгрузки, маршрутами и очередями. Работы оцениваются по:

  • Пониманию структуры системы
  • Абстрагированию в модель дискретно-событийного моделирования
  • Проектированию событий, изменений состояний и KPI
  • Созданию исполняемого кода симуляции
  • Интерпретации результатов (узкие места, пропускная способность, время ожидания)
  • Генерации читаемых артефактов (диаграммы топологии, анимации)

Производительность Ouroboros

Решение Ouroboros включало рабочий код DES, диаграмму топологии шахтной системы и анимацию движения грузовиков с рудой. Примечательно, что когда MCP-сервер вышел из строя в середине работы, Ouroboros переключился на путь на основе навыков и завершил задачу — демонстрируя восстановление и перенаправление в реальных развертываниях.

Ad

Сравнение

  • Режим планирования (облегченное планирование) — достойный базовый уровень
  • Суперспособности / стеки навыков — хуже режима планирования в этой задаче
  • Ouroboros (структурированный: уточнить → спланировать → выполнить → оценить → восстановить → повторить) — лучший

Результат показывает, что структурирование рабочего процесса вокруг определения проблемы, планирования, выполнения, оценки и восстановления эффективнее, чем нагромождение инструкций и больших навыков.

Ouroboros: https://github.com/Q00/ouroboros
Бенчмарк: https://simulation-bench.fly.dev/

📖 Читать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

NVIDIA представила процессор Vera для агентных задач искусственного интеллекта
Новости

NVIDIA представила процессор Vera для агентных задач искусственного интеллекта

NVIDIA представила процессор Vera CPU, специально разработанный для агентного ИИ и задач обучения с подкреплением. По заявлению компании, он обеспечивает на 50% более высокую производительность и вдвое большую эффективность по сравнению с традиционными процессорами для стоечных систем.

OpenClawRadar
GitHub отключает возможность Copilot вставлять рекламу в pull-запросы после негативной реакции разработчиков.
Новости

GitHub отключает возможность Copilot вставлять рекламу в pull-запросы после негативной реакции разработчиков.

GitHub отключил функцию Copilot, которая позволяла вставлять рекламные 'советы' в pull requests после того, как разработчики обнаружили, что она добавляет рекламу таких инструментов, как Raycast. Функция, позволявшая Copilot редактировать PR, которые он не создавал, когда его упоминали, была отключена после обратной связи сообщества.

OpenClawRadar
Нейроморфная машина Изинга на FPGA решает сложные комбинаторные задачи
Новости

Нейроморфная машина Изинга на FPGA решает сложные комбинаторные задачи

Нейроморфная машина Изинга, реализованная на FPGA, использует физику квантового туннелирования и архитектуру, вдохновленную мозгом, для решения задач комбинаторной оптимизации, таких как сворачивание белков.

OpenClawRadar
Проблема с UX в Claude Cowork: Постоянное поле ввода создает ложные ожидания непрерывности
Новости

Проблема с UX в Claude Cowork: Постоянное поле ввода создает ложные ожидания непрерывности

Пользователь выявил проблему UX в Claude Cowork, где постоянное поле ввода текста сохраняет черновик при переключении между задачами, но сбрасывает контекст и теряет вложения, создавая противоречивые сигналы о непрерывности.

OpenClawRadar