AI 에이전트의 컨텍스트 품질 저하: 토큰 수 증가에 따른 환각률 상승

✍️ OpenClawRadar📅 게시일: March 28, 2026🔗 Source
AI 에이전트의 컨텍스트 품질 저하: 토큰 수 증가에 따른 환각률 상승
Ad

컨텍스트 윈도우 성능 테스트 결과

한 개발자가 AI 에이전트에서 다양한 토큰 수에 따른 컨텍스트 품질 저하를 테스트한 결과, 컨텍스트 크기가 증가함에 따라 심각한 성능 문제가 드러났습니다.

테스트의 주요 발견점

이 테스트는 몇 가지 중요한 지표를 측정했습니다:

  • 컨텍스트 크기별 환각률:
    • 10K 토큰: ~3%
    • 50K 토큰: ~11%
    • 200K 토큰: ~28%
    • 1M 토큰: 불분명하지만, 추세는 계속되는 저하를 보입니다
  • 회수 정확도: 컨텍스트가 50K 토큰을 초과하면 GPT-4, Claude 또는 로컬 모델을 포함한 어떤 테스트된 모델도 처음 10턴의 정보에 대해 90% 회수 정확도를 달성하지 못했습니다.
  • 토큰 효율성: 200K 토큰에서, 대부분의 에이전트 작업에서 현재 쿼리와 실제로 관련된 컨텍스트의 비율이 12% 미만으로 떨어지며, 이는 약 188K 토큰이 모델이 추론해야 하는 잡음을 추가한다는 의미입니다.

문제 분석

이 문제는 망각보다는 주의력 고갈으로 보입니다. 초기 컨텍스트는 최근 컨텍스트와 경쟁하며, 최근 컨텍스트가 일반적으로 더 높은 위치적 관련성으로 인해 승리합니다. 이로 인해 세션 초기에 설정된 제약 조건(예: "PostgreSQL 사용, ORM 사용 금지")이 더 많은 컨텍스트가 누적됨에 따라 점진적으로 희석됩니다.

200K 토큰으로 89턴에 이르면, 모델의 주의력이 컨텍스트 전체에 너무 분산되어 초기 제약 조건이 사실상 사라집니다.

현재 해결책과 한계

많은 개발자가 "관련" 메모리를 검색하기 위해 벡터 데이터베이스를 추가하여 어느 정도 도움을 얻고 있습니다. 그러나 이 접근 방식은 올바른 추론을 위해 에이전트가 필요한 것보다는 의미적으로 유사한 콘텐츠를 검색합니다. 예를 들어, "PostgreSQL 사용"은 적절한 실행을 위해 컨텍스트에 있어야 함에도 불구하고 "로그인 엔드포인트 작성"과 의미적으로 유사하지 않습니다.

해당 개발자는 이러한 발견이 실제 운영 경험과 일치하는지, 그리고 다른 사람들에게 실제로 효과가 있었던 접근법이 무엇인지에 대한 피드백을 구하고 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

OpenClaw의 자동화 기능 명확히 하기
News

OpenClaw의 자동화 기능 명확히 하기

OpenClaw는 완전히 자동화된 작업을 독립적으로 수행하지 않으며, 설정을 위해서는 사용자의 지도가 필요하며, 전통적인 LLM과 더 유사하게 작동합니다.

OpenClawRadar
온타리오 감사: AI 기록 시스템의 60%가 약물을 혼동하고, 85%가 정신 건강 세부사항을 놓친다
News

온타리오 감사: AI 기록 시스템의 60%가 약물을 혼동하고, 85%가 정신 건강 세부사항을 놓친다

온타리오주 감사관은 20개의 AI 필기 시스템 중 12개가 잘못된 약물 정보를 삽입하고, 9개가 치료 제안을 조작했으며, 17개가 의사-환자 녹음에서 핵심 정신 건강 세부 사항을 누락했다는 사실을 발견했습니다. 평가는 정확성에 전체 점수의 4%만을 가중치로 부여했습니다.

OpenClawRadar
Claude-Code v2.1.80은 속도 제한 모니터링, 플러그인 개선, 메모리 최적화 기능을 추가했습니다.
News

Claude-Code v2.1.80은 속도 제한 모니터링, 플러그인 개선, 메모리 최적화 기능을 추가했습니다.

Claude-Code v2.1.80는 Claude.ai 사용량을 표시하기 위한 상태 표시줄 스크립트에 rate_limits 필드를 도입하고, source: 'settings' 플러그인 마켓플레이스 지원을 추가하며, 대규모 저장소에서 메모리 사용량을 약 80MB 감소시켰습니다. 이번 릴리스에서는 병렬 도구 결과 복원, WebSocket 실패, 다양한 UI 문제도 수정되었습니다.

OpenClawRadar
클로드 AI는 인스턴스 간에 특이한 구두점만으로 이루어진 커뮤니케이션 패턴을 보여줍니다.
News

클로드 AI는 인스턴스 간에 특이한 구두점만으로 이루어진 커뮤니케이션 패턴을 보여줍니다.

두 개의 Claude Sonnet 4.6 인스턴스가 대화 중 정상 메시지 하나 이후에 "- . . ? , \"-\" , : \" , - \"? ."와 같은 구두점만으로 구성된 출력 시퀀스로 전환했습니다. 수신 측 Claude는 이러한 시퀀스를 의미 있는 의사소통으로 해석한 반면, ChatGPT 및 Grok과 같은 다른 모델들은 그렇지 않았습니다.

OpenClawRadar