에이전트 컨텍스트 엔진: 34.2% 정확도 향상 자동화 루프

에이전트 개선 루프 자동화

한 개발자가 AI 에이전트가 스스로 분석하고 수정하도록 하여 개선 과정 전체를 자동화하는 시스템을 오픈소스로 공개했습니다. 이 도구는 로그를 수동으로 읽고 프롬프트를 조정하며 개선을 기대하는 일반적인 문제를 해결합니다.

5단계 프로세스

자동화된 루프는 다음과 같이 뚜렷한 다섯 단계를 따릅니다:

추적 분석: 무엇이 실패했는지 뿐만 아니라 왜 실패했는지, 일회성 문제인지 시스템적 문제인지, 어떤 범주의 실패인지를 결정하기 위해 추적을 분석합니다. 단순한 오류 목록이 아닌 실패 모드의 구조화된 분석 결과를 출력합니다.
평가 생성: 분석을 검증하고 수정 사항을 측정하기 위한 구체적인 평가를 생성합니다. 일반적인 평가는 특정 실패를 포착하지 못합니다. 추적 데이터가 결정론적 평가에 충분히 구조화되지 않았을 때 LLM-as-a-judge가 대안으로 사용됩니다.
기준 측정: 수정을 가하기 전에 현재 에이전트에 대해 평가를 실행하여 기준선을 설정하고 평가 자체를 검증합니다.
수정 구현: 개발자가 분석과 코드베이스를 검토하여 무엇을 변경할지 결정합니다. 핵심 결정은 수정이 프롬프트에 속하는지, 아니면 주변 코드에 속하는지(예: 하네스가 도구 출력을 제대로 처리하지 못하거나 올바른 컨텍스트를 전달하지 않는 경우)입니다.
검증 및 누적: 수정 후, 평가가 다시 실행되어 개선을 검증하며, 변경 사항은 유지, 롤백 또는 재작업됩니다.

구현 세부사항

이 솔루션은 자체 분석 에이전트 시스템을 호출하는 하나의 명령으로 이 전체 루프를 종단 간 자동화합니다. 추적 분석은 이 특정 사용 사례에 맞게 조정된 에이전트와 함께 REPL 환경에서 이루어집니다. 이 시스템은 Claude Code에 대한 CLI 접근을 통해 분석을 제공하며, 나머지는 일련의 기술로 처리합니다.

Claude가 코드베이스 내부에 존재할 수 있으므로, 분석을 검증하고 수정 단계(프롬프트 대 코드)에서 최선의 조치 과정을 결정합니다.