Сравнение мультиагентных систем ИИ: Harness от Anthropic и модель инженерной организации Agyn

Anthropic опубликовала дизайн фреймворка для разработки долгоиграющих приложений, в то время как мультиагентная система Agyn для командной автономной разработки ПО была открыта в прошлом месяце на arXiv. Оба подхода отвергают модель «монолитного агента» и вместо этого структурируют ИИ-агентов для работы как реальные инженерные команды с разделением ролей, структурированными передачами и циклами проверки.
Ключевые различия в архитектуре
Система Anthropic использует архитектуру, вдохновлённую GAN, с тремя ролями: планировщик → генератор → оценщик. Оценщик использует Playwright для взаимодействия с запущенным приложением, как реальный пользователь, а затем предоставляет структурированную критику генератору.
Agyn моделирует процесс как инженерную организацию с четырьмя ролями: координация → исследование → реализация → проверка. Агенты работают в изолированных песочницах и общаются через определённые контракты.
Общие решения для типичных проблем
- Потеря связности моделей в длительных задачах: Anthropic использует сброс контекста со структурированными артефактами передачи, в то время как Agyn использует сжатие со структурированными передачами между ролями
- Слишком мягкая самооценка: Обе системы отделяют оценку от генерации. Anthropic использует отдельного агента-оценщика, откалиброванного на нескольких примерах, в то время как у Agyn есть выделенная роль проверки, отделённая от реализации
- Неоднозначные критерии завершения: Anthropic использует спринт-контракты, согласованные до начала работы, в то время как Agyn имеет фазу спецификации задач с явными критериями приёмки и необходимыми тестами
- Сложная декомпозиция задач: Планировщик Anthropic расширяет односложные промпты в полные спецификации, в то время как агент-исследователь Agyn декомпозирует задачи и создаёт спецификации до начала реализации
- Тревога контекста: Anthropic использует сбросы для чистого листа, в то время как Agyn использует сжатие со слоем памяти
Отличительные особенности Agyn
Agyn включает две функции, отсутствующие во фреймворке Anthropic:
- Изолированные песочницы для каждого агента: Каждый агент работает в своём собственном изолированном файловом и сетевом пространстве имён, предотвращая конфликты из-за общего состояния во время параллельной или последовательной работы
- GitHub как общее состояние: Система использует примитивы GitHub (коммиты, комментарии, PR, ревью), которые уже понимают человеческие команды, предоставляя полный журнал аудита без необходимости в пользовательских протоколах связи
Различия в реализации
Фреймворк Anthropic тесно построен вокруг Claude с использованием Claude Agent SDK и Playwright MCP для цикла оценки. Оценщик навигает по живым запущенным приложениям перед выставлением оценки.
Agyn по замыслу является модель-агностиком, поддерживая Claude, Codex и модели с открытыми весами. Система позволяет смешивать разные модели для каждой роли, что на практике оказалось эффективнее, чем использование одной модели для всего.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

命运:克劳德代码插件——基于古典东亚占星术的确定性占卜
Destiny — это плагин для Claude Code, который вычисляет вашу натальную карту по восьми иероглифам, дневной столп сегодняшнего дня и гексаграмму И-Цзин детерминированно (Python), а затем использует Claude для генерации прозаических толкований — без галлюцинирующих LLM гороскопов.

Переосмыслить команду слэша для Claude Code применяет метод когнитивной науки для решения проблем
Разработчик создал команду /reframe для Claude Code, реализующую когнитивную технику под названием «осцилляция дистанции и вовлечённости». Метод был протестирован на трёх открытых LLM с 50 задачами и стабильно превосходил другие подходы.

civStation: Система VLM для игры в Civilization VI с помощью естественно-языковых команд
civStation — это система компьютерного использования VLM, которая играет в Civilization VI, преобразуя высокоуровневые команды на естественном языке в игровые действия. Система использует трёхуровневую архитектуру, разделяющую стратегию и исполнение, с поддержкой вмешательства человека в процесс.

Sentrial: Мониторинг производства для ИИ-агентов
Sentrial — это инструмент мониторинга, который автоматически обнаруживает шаблоны сбоев в AI-продуктах, включая циклы, галлюцинации, неправильное использование инструментов и разочарование пользователей. Он диагностирует первопричины, анализируя шаблоны диалогов, выходные данные модели и взаимодействия с инструментами.