다중 에이전트 AI 시스템 비교: Anthropic의 Harness 대 Agyn의 엔지니어링 조직 모델

Anthropic은 장기 실행 애플리케이션 개발을 위한 하네스 설계를 발표한 반면, Agyn의 팀 기반 자율 소프트웨어 엔지니어링을 위한 다중 에이전트 시스템은 지난달 arXiv에서 오픈소스로 공개되었습니다. 두 접근 방식 모두 '단일 에이전트' 모델을 거부하고 역할 분리, 구조화된 인계, 검토 루프를 갖춘 실제 엔지니어링 팀처럼 작동하도록 AI 에이전트를 구조화합니다.
핵심 아키텍처 차이점
Anthropic의 시스템은 GAN에서 영감을 받은 아키텍처를 사용하며 세 가지 역할(플래너 → 생성기 → 평가자)로 구성됩니다. 평가자는 Playwright를 사용하여 실제 사용자처럼 실행 중인 애플리케이션과 상호작용한 후 구조화된 비평을 생성기로 제공합니다.
Agyn은 네 가지 역할(조정 → 연구 → 구현 → 검토)을 가진 엔지니어링 조직으로 프로세스를 모델링합니다. 에이전트는 격리된 샌드박스에서 작동하며 정의된 계약을 통해 통신합니다.
공통 문제에 대한 공유 솔루션
- 장기 작업에서 모델 일관성 상실: Anthropic은 구조화된 인계 산출물과 함께 컨텍스트 재설정을 사용하는 반면, Agyn은 역할 간 구조화된 인계와 함께 압축을 사용합니다.
- 너무 관대한 자체 평가: 두 시스템 모두 평가를 생성과 분리합니다. Anthropic은 몇 가지 샘플로 보정된 별도의 평가자 에이전트를 사용하는 반면, Agyn은 구현과 분리된 전용 검토 역할을 갖습니다.
- 모호한 '완료' 기준: Anthropic은 작업 시작 전 협상된 스프린트 계약을 사용하는 반면, Agyn은 명시적인 수락 기준과 필요한 테스트를 포함한 작업 명세 단계를 갖습니다.
- 복잡한 작업 분해: Anthropic의 플래너는 한 문장 프롬프트를 전체 명세로 확장하는 반면, Agyn의 연구 에이전트는 구현 시작 전에 문제를 분해하고 명세를 생성합니다.
- 컨텍스트 불안: Anthropic은 깨끗한 상태를 위한 재설정을 사용하는 반면, Agyn은 메모리 계층과 함께 압축을 사용합니다.
Agyn의 독특한 기능
Agyn은 Anthropic의 하네스에 없는 두 가지 기능을 포함합니다:
- 에이전트별 격리된 샌드박스: 각 에이전트는 자체 격리된 파일 및 네트워크 네임스페이스에서 작동하여 병렬 또는 순차 작업 중 공유 상태 충돌을 방지합니다.
- 공유 상태로서의 GitHub: 이 시스템은 인간 팀이 이미 이해하는 GitHub 기본 요소(커밋, 댓글, PR, 리뷰)를 사용하여 사용자 정의 통신 프로토콜 없이도 완전한 감사 로그를 제공합니다.
구현 차이점
Anthropic의 하네스는 Claude Agent SDK와 평가 루프를 위한 Playwright MCP를 사용하여 Claude를 중심으로 긴밀하게 구축되었습니다. 평가자는 점수 매기기 전에 실행 중인 애플리케이션을 탐색합니다.
Agyn은 설계상 모델에 구애받지 않으며 Claude, Codex 및 오픈 웨이트 모델을 지원합니다. 이 시스템은 역할별로 다른 모델을 혼합하는 것을 허용하며, 실제로 모든 작업에 하나의 모델을 사용하는 것보다 성능이 더 우수한 것으로 나타났습니다.
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

뇌: MCP를 통한 Claude 코드용 지속적 오류 메모리 시스템
Brain은 Claude Code에 오류와 해결책에 대한 지속적이고 프로젝트 간 메모리를 제공하는 오픈소스 MCP 서버입니다. 오류 컨텍스트를 포착하고, 신뢰도 점수와 함께 검증된 해결책을 제안하며, 모든 프로젝트에 걸쳐 오류, 해결책, 코드 모듈을 연결하는 가중 시냅스 네트워크를 구축합니다.

수행사: 에이전트 내레이션을 침묵시켜 맥락과 토큰을 절약하는 기술
레딧 사용자가 클로드 에이전트 응답에서 서사, 서문, 후문을 제거하는 스킬 'monk'를 게시했으며, 턴당 출력 토큰이 약 54% 감소하고 100회에서 컨텍스트 용량이 29-39% 증가한다고 주장합니다.

PageAgent: Ollama 지원으로 웹 페이지 내에서 실행되는 브라우저 AI 에이전트
PageAgent는 웹 페이지 내부에서 직접 AI 에이전트를 실행하는 JavaScript 라이브러리로, 스크린샷 대신 라이브 DOM을 텍스트로 읽어들입니다. Ollama를 포함한 모든 OpenAI 호환 엔드포인트와 작동하여 브라우저에서 직접 로컬 LLM 호출을 가능하게 합니다.

16GB Mac Mini M4에서 88개의 소형 GGUF 모델 벤치마킹
Mac Mini M4(16GB RAM)에서 88개의 GGUF 모델을 자동화 파이프라인으로 테스트한 결과, 9개 모델은 사용 불가능했으며, 속도와 품질 측면에서 파레토 최적선에 위치한 4개의 LFM2-8B-A1B MoE 모델을 확인했습니다.