에이전트 컨텍스트 엔진: 34.2% 정확도 향상과 함께하는 자동화된 에이전트 개선 루프

에이전트 개선 루프 자동화
한 개발자가 AI 에이전트가 스스로 분석하고 수정하도록 하여 개선 과정 전체를 자동화하는 시스템을 오픈소스로 공개했습니다. 이 도구는 로그를 수동으로 읽고 프롬프트를 조정하며 개선을 기대하는 일반적인 문제를 해결합니다.
5단계 프로세스
자동화된 루프는 다음과 같이 뚜렷한 다섯 단계를 따릅니다:
- 추적 분석: 무엇이 실패했는지 뿐만 아니라 왜 실패했는지, 일회성 문제인지 시스템적 문제인지, 어떤 범주의 실패인지를 결정하기 위해 추적을 분석합니다. 단순한 오류 목록이 아닌 실패 모드의 구조화된 분석 결과를 출력합니다.
- 평가 생성: 분석을 검증하고 수정 사항을 측정하기 위한 구체적인 평가를 생성합니다. 일반적인 평가는 특정 실패를 포착하지 못합니다. 추적 데이터가 결정론적 평가에 충분히 구조화되지 않았을 때 LLM-as-a-judge가 대안으로 사용됩니다.
- 기준 측정: 수정을 가하기 전에 현재 에이전트에 대해 평가를 실행하여 기준선을 설정하고 평가 자체를 검증합니다.
- 수정 구현: 개발자가 분석과 코드베이스를 검토하여 무엇을 변경할지 결정합니다. 핵심 결정은 수정이 프롬프트에 속하는지, 아니면 주변 코드에 속하는지(예: 하네스가 도구 출력을 제대로 처리하지 못하거나 올바른 컨텍스트를 전달하지 않는 경우)입니다.
- 검증 및 누적: 수정 후, 평가가 다시 실행되어 개선을 검증하며, 변경 사항은 유지, 롤백 또는 재작업됩니다.
구현 세부사항
이 솔루션은 자체 분석 에이전트 시스템을 호출하는 하나의 명령으로 이 전체 루프를 종단 간 자동화합니다. 추적 분석은 이 특정 사용 사례에 맞게 조정된 에이전트와 함께 REPL 환경에서 이루어집니다. 이 시스템은 Claude Code에 대한 CLI 접근을 통해 분석을 제공하며, 나머지는 일련의 기술로 처리합니다.
Claude가 코드베이스 내부에 존재할 수 있으므로, 분석을 검증하고 수정 단계(프롬프트 대 코드)에서 최선의 조치 과정을 결정합니다.
결과 및 운영
Tau-2 벤치에서 단 한 번의 반복만 사용하여 벤치마킹한 결과, 첫 번째 시도에서 수동 개입 없이 34.2% 정확도 향상을 달성했습니다. 이 시스템은 개선을 누적하도록 설계되었습니다: 새로운 추적이 새로운 문제를 드러내고, 각 주기에서 새로운 수정으로 이어집니다.
완전히 자율적으로 루프를 돌도록 설정할 수 있습니다. 4단계 전에 수정 사항을 승인하고 싶다면 인간 참여 옵션이 존재하지만, 테스트에서 개발자는 "그냥 진행시켰습니다."
이 도구는 GitHub에서 오픈소스로 공개되었습니다: https://github.com/kayba-ai/agentic-context-engine
📖 Read the full source: r/ClaudeAI
👀 See Also

Visdiff: Claude의 프론트엔드 코드 생성을 위한 시각적 피드백 루프
Visdiff는 Claude의 프론트엔드 코드 생성에서 발생하는 시각적 정확도 격차를 해결합니다. 렌더링된 출력물을 Figma 디자인과 픽셀 단위로 비교하고, 차이점을 피드백 루프에 반영하여 일치할 때까지 반복합니다.

MephisQuiz: 엔지니어링 역할 평가를 위한 무료 시나리오 기반 퀴즈 플랫폼
SRE 전문가가 MephisQuiz를 개발했습니다. 이는 4가지 엔지니어링 역할 트랙에 걸쳐 860개 이상의 시나리오 기반 질문을 제공하는 무료 퀴즈 플랫폼입니다. 이 플랫폼은 적응형 난이도 시스템을 사용하며, 주제별 분석을 제공하고, Claude AI를 페어 프로그래머로 활용하여 개발되었습니다.

전자상거래 연구를 위한 세 가지 MCP 서버: Shopify, Amazon, Google Maps 도구와 함께하는 Claude
한 개발자가 Shopify 스토어를 API 키 없이 분석하고, Amazon 제품 기회를 평가하며, Google Maps에서 지역 비즈니스 리드를 찾아 평가하는 세 개의 MCP 서버를 Claude용으로 구축했습니다. 모두 Apify에서 이용 가능합니다.

Mneme: 지속적 메모리를 갖춘 무료 로컬 우선 클로드 채팅 클라이언트
Mneme는 계층형 메모리, 엔티티 추적, 일일 요약, Anthropic API를 통한 Sonnet 4.5 지원이 포함된 무료 오픈소스 로컬 퍼스트 Claude 채팅 클라이언트입니다.