413K AI 에이전트 실행 분석: 성공 요인 찾기

CoderForge-Preview 데이터셋의 413,278회 AI 소프트웨어 엔지니어링 에이전트 실행에 대한 새로운 분석이 성공적 실행과 실패적 실행을 구분하는 요인을 밝혀냈습니다. 이 연구는 동일한 문제에 대한 통과 실행과 실패 실행을 비교하며 170억 토큰의 행동 데이터를 검토했습니다.

데이터에서 도출된 주요 발견

분석 결과, 일반적인 인간의 소프트웨어 엔지니어링 관행이 실제로 AI 에이전트 성능을 저하시킬 수 있음이 나타났습니다. 다음은 발견된 구체적인 패턴들입니다:

에이전트에게 "먼저 둘러보라"고 말하는 것을 멈추세요: 수정 전에 에이전트가 파일을 grep하거나 보도록 강제하는 것은 효과를 감소시킵니다. 제한된 작업 기억을 가진 인간과 달리, 에이전트는 이미 코드베이스를 컨텍스트 창에 가지고 있습니다. 탐색과 조사에 소비된 초기 턴은 에이전트가 학습하기보다 허둥대고 있음을 나타냅니다.
테스트 주도 접근법은 필수입니다: 성공적 실행의 가장 큰 예측 변수는 테스트 실행에만 전념한 초기 bash 명령어의 비율입니다. 에이전트는 맹목적으로 수정해서는 안 되며, 시스템 프롬프트는 즉시 테스트 스위트를 실행하도록 강제해야 합니다.
에이전트를 짧은 줄에 매두세요: 에이전트가 실행의 첫 30% 내에서 3개 이상의 파일을 수정하려고 시도하면, 성공률이 크게 떨어집니다. 여러 파일에 걸쳐 수정을 흩뿌리는 것은 혼란을 나타냅니다. 에이전트가 한 번에 한 가지를 고치도록 강제하세요.
인내심은 착각입니다: 에이전트가 실행 초기에 정확히 동일한 bash 명령어를 두 번 실행한다면, 그것은 "열심히 생각"하거나 "다시 시도"하는 것이 아니라 루프에 갇힌 것입니다. 루프를 깨거나 실행을 재시작하세요.

실질적인 구현 변경 사항

분석은 에이전트 스캐폴딩에 대한 구체적인 변경을 권장합니다:

다음과 같은 프롬프트 사용을 중지하세요: "코드베이스를 탐색하고, 관련 파일을 읽으며, 버그를 파악하세요."
대신 다음을 사용하세요: "기준선을 검증하기 위해 즉시 테스트 스위트를 실행하세요. 최대 1~2개의 파일에 대해 표적화된 변경을 가하세요. 테스트를 다시 실행하세요."

핵심 통찰은 인간의 한계를 LLM에 투영하는 것을 멈추는 것입니다. 그들이 거대한 컨텍스트 창을 사용하도록 허용하고, 테스트로 자신의 작업을 증명하도록 강제하세요.

📖 Read the full source: r/LocalLLaMA

413K AI 에이전트 실행 분석을 통해 성공 요인 밝혀내다

데이터에서 도출된 주요 발견

실질적인 구현 변경 사항

👀 See Also

Claude Desktop v1.1.5749, 컴퓨터 제어 기능 및 기업용 프록시 수정 사항 추가

미군, 군사적 사용을 위해 Claude 안전장치 제거를 Anthropic에 압박

글로벌 AI 도입 강도에 관한 Anthropic 보고서

CBP의 클리어뷰 AI 계약: 전술적 표적 식별을 위한 얼굴 인식