AGENTS.md: ETH 연구, AI 코딩 에이전트 성능 3% 감소 확인

AGENTS.md 파일에 관한 연구 결과

ETH 취리히 연구진의 새로운 논문은 AI 코딩 에이전트와 함께 AGENTS.md 파일을 사용하는 산업계의 보편적 관행에 의문을 제기합니다. Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev가 수행한 이 연구는 이러한 컨텍스트 파일이 AI 에이전트를 돕기보다는 오히려 방해하는 경우가 많다는 경험적 증거를 제공합니다.

방법론 및 테스트

연구팀은 AI 모델이 암기했을 수 있는 SWE-bench와 같은 인기 벤치마크의 편향을 피하기 위해 틈새 저장소에서 가져온 138개의 실제 Python 작업으로 구성된 새로운 데이터셋인 AGENTbench를 구축했습니다. 그들은 세 가지 시나리오에서 네 가지 에이전트를 테스트했습니다:

컨텍스트 파일 없음
LLM 생성 AGENTS.md 파일
인간 작성 AGENTS.md 파일

성능은 세 가지 대리 지표를 사용하여 측정되었습니다: 작업 성공률(저장소 단위 테스트로 결정), 에이전트 단계 수, 전체 추론 비용.

주요 결과

LLM 생성 컨텍스트 파일은 성능을 저하시켜, 컨텍스트 파일을 제공하지 않은 경우에 비해 작업 성공률을 평균 3% 감소시켰습니다. 이러한 파일은 에이전트가 수행하는 단계 수를 지속적으로 증가시켜 추론 비용을 20% 이상 상승시켰습니다.

인간 작성 파일은 AGENTbench에서 작업 성공률이 평균 4% 증가하는 미미한 향상을 보였지만, 이는 단계 수의 병행 증가와 함께 비용을 최대 19%까지 증가시켰습니다.

AGENTS.md 파일에 아키텍처 개요나 저장소 구조 설명을 포함하는 것은 모델이 작업에 필요한 관련 파일을 찾는 데 소요되는 시간을 줄이지 못했습니다.

행동 분석

추적 분석에 따르면, 에이전트는 일반적으로 AGENTS.md 파일의 지시를 따르며, 더 많은 테스트를 실행하고, 더 많은 파일을 읽고, 더 많은 grep 검색을 수행하며, 더 많은 코드 품질 검사를 수행했습니다. 이 행동은 철저했지만, 특정 작업을 해결하는 데 종종 불필요했으며, 추론 모델이 더 나은 최종 패치를 산출하지 못한 채 더 열심히 "생각"하도록 강요했습니다.

실용적 권장사항

연구진은 LLM 생성 컨텍스트 파일을 완전히 생략하고, 인간 작성 지시사항을 매우 구체적인 도구나 맞춤형 빌드 명령과 같이 추론할 수 없는 세부사항으로 제한할 것을 권장합니다. 그들은 현재 60,000개의 오픈소스 저장소가 AGENTS.md와 같은 컨텍스트 파일을 포함하고 있으며, 많은 에이전트 프레임워크가 이를 자동 생성하는 내장 명령어를 특징으로 하지만, 이러한 파일이 에이전트 행동에 미치는 영향은 미미하다고 지적합니다.

📖 전체 출처 읽기: HN AI Agents