Anthropic Harness vs Agyn 다중 에이전트 시스템 비교

Anthropic은 장기 실행 애플리케이션 개발을 위한 하네스 설계를 발표한 반면, Agyn의 팀 기반 자율 소프트웨어 엔지니어링을 위한 다중 에이전트 시스템은 지난달 arXiv에서 오픈소스로 공개되었습니다. 두 접근 방식 모두 '단일 에이전트' 모델을 거부하고 역할 분리, 구조화된 인계, 검토 루프를 갖춘 실제 엔지니어링 팀처럼 작동하도록 AI 에이전트를 구조화합니다.

핵심 아키텍처 차이점

Anthropic의 시스템은 GAN에서 영감을 받은 아키텍처를 사용하며 세 가지 역할(플래너 → 생성기 → 평가자)로 구성됩니다. 평가자는 Playwright를 사용하여 실제 사용자처럼 실행 중인 애플리케이션과 상호작용한 후 구조화된 비평을 생성기로 제공합니다.

Agyn은 네 가지 역할(조정 → 연구 → 구현 → 검토)을 가진 엔지니어링 조직으로 프로세스를 모델링합니다. 에이전트는 격리된 샌드박스에서 작동하며 정의된 계약을 통해 통신합니다.

공통 문제에 대한 공유 솔루션

장기 작업에서 모델 일관성 상실: Anthropic은 구조화된 인계 산출물과 함께 컨텍스트 재설정을 사용하는 반면, Agyn은 역할 간 구조화된 인계와 함께 압축을 사용합니다.
너무 관대한 자체 평가: 두 시스템 모두 평가를 생성과 분리합니다. Anthropic은 몇 가지 샘플로 보정된 별도의 평가자 에이전트를 사용하는 반면, Agyn은 구현과 분리된 전용 검토 역할을 갖습니다.
모호한 '완료' 기준: Anthropic은 작업 시작 전 협상된 스프린트 계약을 사용하는 반면, Agyn은 명시적인 수락 기준과 필요한 테스트를 포함한 작업 명세 단계를 갖습니다.
복잡한 작업 분해: Anthropic의 플래너는 한 문장 프롬프트를 전체 명세로 확장하는 반면, Agyn의 연구 에이전트는 구현 시작 전에 문제를 분해하고 명세를 생성합니다.
컨텍스트 불안: Anthropic은 깨끗한 상태를 위한 재설정을 사용하는 반면, Agyn은 메모리 계층과 함께 압축을 사용합니다.

Agyn의 독특한 기능

Agyn은 Anthropic의 하네스에 없는 두 가지 기능을 포함합니다:

에이전트별 격리된 샌드박스: 각 에이전트는 자체 격리된 파일 및 네트워크 네임스페이스에서 작동하여 병렬 또는 순차 작업 중 공유 상태 충돌을 방지합니다.
공유 상태로서의 GitHub: 이 시스템은 인간 팀이 이미 이해하는 GitHub 기본 요소(커밋, 댓글, PR, 리뷰)를 사용하여 사용자 정의 통신 프로토콜 없이도 완전한 감사 로그를 제공합니다.