ETH 취리히 연구, AI 코딩 에이전트를 위한 AGENTS.md 파일의 가치에 의문 제기

AGENTS.md 파일에 관한 연구 결과
ETH 취리히 연구진의 새로운 논문은 AI 코딩 에이전트와 함께 AGENTS.md 파일을 사용하는 산업계의 보편적 관행에 의문을 제기합니다. Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev, Martin Vechev가 수행한 이 연구는 이러한 컨텍스트 파일이 AI 에이전트를 돕기보다는 오히려 방해하는 경우가 많다는 경험적 증거를 제공합니다.
방법론 및 테스트
연구팀은 AI 모델이 암기했을 수 있는 SWE-bench와 같은 인기 벤치마크의 편향을 피하기 위해 틈새 저장소에서 가져온 138개의 실제 Python 작업으로 구성된 새로운 데이터셋인 AGENTbench를 구축했습니다. 그들은 세 가지 시나리오에서 네 가지 에이전트를 테스트했습니다:
- 컨텍스트 파일 없음
- LLM 생성 AGENTS.md 파일
- 인간 작성 AGENTS.md 파일
성능은 세 가지 대리 지표를 사용하여 측정되었습니다: 작업 성공률(저장소 단위 테스트로 결정), 에이전트 단계 수, 전체 추론 비용.
주요 결과
LLM 생성 컨텍스트 파일은 성능을 저하시켜, 컨텍스트 파일을 제공하지 않은 경우에 비해 작업 성공률을 평균 3% 감소시켰습니다. 이러한 파일은 에이전트가 수행하는 단계 수를 지속적으로 증가시켜 추론 비용을 20% 이상 상승시켰습니다.
인간 작성 파일은 AGENTbench에서 작업 성공률이 평균 4% 증가하는 미미한 향상을 보였지만, 이는 단계 수의 병행 증가와 함께 비용을 최대 19%까지 증가시켰습니다.
AGENTS.md 파일에 아키텍처 개요나 저장소 구조 설명을 포함하는 것은 모델이 작업에 필요한 관련 파일을 찾는 데 소요되는 시간을 줄이지 못했습니다.
행동 분석
추적 분석에 따르면, 에이전트는 일반적으로 AGENTS.md 파일의 지시를 따르며, 더 많은 테스트를 실행하고, 더 많은 파일을 읽고, 더 많은 grep 검색을 수행하며, 더 많은 코드 품질 검사를 수행했습니다. 이 행동은 철저했지만, 특정 작업을 해결하는 데 종종 불필요했으며, 추론 모델이 더 나은 최종 패치를 산출하지 못한 채 더 열심히 "생각"하도록 강요했습니다.
실용적 권장사항
연구진은 LLM 생성 컨텍스트 파일을 완전히 생략하고, 인간 작성 지시사항을 매우 구체적인 도구나 맞춤형 빌드 명령과 같이 추론할 수 없는 세부사항으로 제한할 것을 권장합니다. 그들은 현재 60,000개의 오픈소스 저장소가 AGENTS.md와 같은 컨텍스트 파일을 포함하고 있으며, 많은 에이전트 프레임워크가 이를 자동 생성하는 내장 명령어를 특징으로 하지만, 이러한 파일이 에이전트 행동에 미치는 영향은 미미하다고 지적합니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Claude 디자인 청구 버그: 추가 사용량 구매 적용 안 됨, 지원 봇이 유료 사용자 가둠
Claude Design 사용자가 인앱 결제를 통해 $20를 추가 사용량으로 결제했지만, 크레딧이 Claude Design의 별도 사용 제한에 적용되지 않습니다. 지원 봇 Fin이 문제를 잘못 이해하고 관련 없는 응답을 반복하며 새 티켓을 차단하고 인간 에스컬레이션 경로가 없습니다.

합성 사회: 몰트북에서 가상의 삶을 구축하는 AI 에이전트들
없음
Claude AI가 개발자가 잠든 사이 매직 링크 버그에 대한 병합 PR을 열다
Reddit 사용자가 새벽 4시 46분에 Claude AI가 프로덕션 매직링크 버그를 자동으로 수정했다고 보고했습니다 — 트림/소문자 단계가 이메일 검증 정규식 앞으로 이동됨 — 변경 없이 PR 병합됨.

블록의 4,000명 인력 감축, AI 세탁 우려 불러일으켜
블록이 4,000명의 인력 감축을 발표했는데, 이는 AI 세탁 의혹을 불러일으켰으며, 해당 소식이 해커 뉴스에서 10점과 3개의 댓글을 기록했습니다.