AI 코딩 에이전트 컨텍스트 문제: 도구 80% 제거로 100% 정확도 달성

실행 병목 현상이 문제가 아니다

실제 코드베이스 사용 관찰 결과, AI 코딩 에이전트가 실행보다 발견(discovery)에 상당한 시간을 지속적으로 소비하는 것으로 나타났습니다. 에이전트가 새로운 작업을 처리할 때마다 다음과 같은 오리엔테이션 활동을 위해 15~20회의 도구 호출을 수행합니다:

에이전트가 코드 작성을 시작할 때쯤이면, 이미 발견 작업에 컨텍스트 윈도우의 상당 부분을 소모한 상태입니다.

Vercel은 에이전트에서 도구의 80%를 제거하고 대신 bash 접근 권한을 부여함으로써 이 문제를 반대 방향에서 입증했습니다. 이 접근법은 100% 정확도를 달성했으며, 실행 능력이 제한 요인이 아님을 시사합니다.

마찬가지로, Pi(최소한의 코딩 에이전트)는 단 4개의 도구와 1,000 토큰 미만의 시스템 프롬프트로 동일한 점을 입증합니다.

실행이 효과적으로 해결되었다면, 실제 어려운 문제는 컨텍스트 관리가 됩니다. 이 과제에 기여하는 여러 요인이 있습니다:

대규모 코드베이스는 현재 어떤 컨텍스트 윈도우에도 맞지 않습니다
긴 작업은 초기 추론을 주의 윈도우 밖으로 밀어내는 도구 출력을 축적합니다
동적 환경은 세션 간에 변경됩니다
"Lost in the Middle" 연구는 모델이 컨텍스트 윈도우 시작 부분에서 가장 잘 추론함을 보여줍니다 — 정확히 에이전트가 여전히 탐색 중일 때입니다

저자는 AI 코딩 에이전트 개발에 대한 이러한 문제와 그 함의를 탐구하는 더 자세한 분석을 발표했습니다.

📖 전체 소스 읽기: r/LocalLLaMA