취리히 연방공과대학교 연구: 과도한 컨텍스트가 AI 코딩 에이전트 성능을 저하시킨다

ETH 취리히의 최근 연구는 AI 코딩 에이전트에게 더 많은 컨텍스트가 반드시 더 나은 성능을 의미하지는 않는다는 구체적인 증거를 제시합니다. 이 연구는 138개의 실제 GitHub 작업에 대해 4개의 코딩 에이전트를 테스트하여 명확한 정량적 결과를 도출했습니다.
주요 발견
연구에 따르면 LLM이 생성한 컨텍스트 파일은 실제로 작업 성공률을 2-3% 감소시키면서 추론 비용을 20% 증가시켰습니다. 심지어 인간이 작성한 컨텍스트 파일도 성공률을 약 4%만 향상시켰지만 여전히 비용을 상당히 증가시켰습니다.
핵심 문제
연구자들은 에이전트들이 컨텍스트 파일의 모든 지시사항을 반드시 실행해야 하는 것으로 처리한다는 사실을 발견했습니다. 한 실험에서 생성된 컨텍스트 파일만으로 저장소를 축소했을 때 성능이 다시 향상되었습니다. 이는 에이전트들이 필수적인 지시사항과 관련 없는 역사적 정보를 구분하는 데 어려움을 겪고 있음을 나타냅니다.
실용적 권장사항
연구는 에이전트가 스스로 발견할 수 없는 정보만 포함하고 컨텍스트를 최소한으로 유지할 것을 권장합니다. 이는 이메일 스레드와 같은 커뮤니케이션 데이터에 특히 관련이 있는데, 이러한 데이터는 컨텍스트처럼 보일 수 있지만 실제로는 역사적 잡음일 때 종종 지시사항으로 해석됩니다.
컨텍스트 API 솔루션
이 문제를 해결하기 위해 연구자들은 이메일 처리에 초점을 맞춘 컨텍스트 API(iGPT)를 개발했습니다. 이 API는:
- 컨텍스트가 모델에 도달하기 전에 이메일 스레드를 대화 그래프로 재구성합니다
- 인용된 텍스트를 중복 제거합니다
- 누가 언제 무엇을 말했는지 감지합니다
- 원시 텍스트 대신 구조화된 JSON을 반환합니다
이 접근 방식은 에이전트가 전체 대화 기록 대신 필터링된 컨텍스트를 받도록 보장하여 관련 정보에 집중하는 능력을 향상시킵니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

클로드 코드 v2.1.51이 통지 없이 100만 컨텍스트 요금제를 변경했습니다
Anthropic의 Claude Code v2.1.51 업데이트는 Max 플랜에서 1백만 컨텍스트 윈도우에 대한 과금 방식을 조용히 변경했습니다. 이제 20만 개를 초과하는 컨텍스트 토큰은 구독 예산이 남아 있어도 구독 용량을 우회하여 추가 사용량 요금으로 바로 청구됩니다.

OpenClaw, BotsChat 출시: 에이전트 커뮤니케이션을 혁신하는 네이티브 채팅 도구
OpenClaw가 AI 코딩 에이전트 간의 의사소통을 향상시키기 위해 설계된 새로운 네이티브 채팅 도구인 BotsChat을 소개합니다. 이 도구가 자동화 프로세스를 어떻게 간소화할 수 있는지 알아보세요.

Anthropic 소스 코드 유출로 공개되지 않은 Claude 기능과 내부 모델이 드러났습니다.
Anthropic이 발표되지 않은 Claude 기능들에 대한 세부 사항을 포함한 50만 줄의 소스 코드를 실수로 유출했습니다. 이 유출된 정보에는 KAIROS 백그라운드 실행, 드림 모드, 언더커버 모드, 그리고 capybara라는 내부 모델이 포함되어 있습니다. 이는 2025년에 발생한 두 번째 유출 사건입니다.
FairyFuse, CPU에서 삼진 가중치 곱셈 없는 추론을 통해 29.6배 커널 속도 향상 달성
FairyFuse는 8개의 실수값 서브-GEMV를 마스크된 덧셈/뺄셈을 사용하여 단일 AVX-512 루프로 융합합니다. Xeon 8558P에서 32.4 tokens/s를 달성하며, 거의 손실 없는 품질로 llama.cpp Q4_K_M보다 1.24배 빠릅니다.