AI 에이전트 컨텍스트 길이: 200K 토큰에서 환각률 28%

컨텍스트 윈도우 성능 테스트 결과

한 개발자가 AI 에이전트에서 다양한 토큰 수에 따른 컨텍스트 품질 저하를 테스트한 결과, 컨텍스트 크기가 증가함에 따라 심각한 성능 문제가 드러났습니다.

테스트의 주요 발견점

이 테스트는 몇 가지 중요한 지표를 측정했습니다:

컨텍스트 크기별 환각률:
- 10K 토큰: ~3%
- 50K 토큰: ~11%
- 200K 토큰: ~28%
- 1M 토큰: 불분명하지만, 추세는 계속되는 저하를 보입니다
회수 정확도: 컨텍스트가 50K 토큰을 초과하면 GPT-4, Claude 또는 로컬 모델을 포함한 어떤 테스트된 모델도 처음 10턴의 정보에 대해 90% 회수 정확도를 달성하지 못했습니다.
토큰 효율성: 200K 토큰에서, 대부분의 에이전트 작업에서 현재 쿼리와 실제로 관련된 컨텍스트의 비율이 12% 미만으로 떨어지며, 이는 약 188K 토큰이 모델이 추론해야 하는 잡음을 추가한다는 의미입니다.

문제 분석

이 문제는 망각보다는 주의력 고갈으로 보입니다. 초기 컨텍스트는 최근 컨텍스트와 경쟁하며, 최근 컨텍스트가 일반적으로 더 높은 위치적 관련성으로 인해 승리합니다. 이로 인해 세션 초기에 설정된 제약 조건(예: "PostgreSQL 사용, ORM 사용 금지")이 더 많은 컨텍스트가 누적됨에 따라 점진적으로 희석됩니다.

200K 토큰으로 89턴에 이르면, 모델의 주의력이 컨텍스트 전체에 너무 분산되어 초기 제약 조건이 사실상 사라집니다.

현재 해결책과 한계

많은 개발자가 "관련" 메모리를 검색하기 위해 벡터 데이터베이스를 추가하여 어느 정도 도움을 얻고 있습니다. 그러나 이 접근 방식은 올바른 추론을 위해 에이전트가 필요한 것보다는 의미적으로 유사한 콘텐츠를 검색합니다. 예를 들어, "PostgreSQL 사용"은 적절한 실행을 위해 컨텍스트에 있어야 함에도 불구하고 "로그인 엔드포인트 작성"과 의미적으로 유사하지 않습니다.

해당 개발자는 이러한 발견이 실제 운영 경험과 일치하는지, 그리고 다른 사람들에게 실제로 효과가 있었던 접근법이 무엇인지에 대한 피드백을 구하고 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA