Cursor & Claude Code: 컨텍스트 블로트가 AI 추론을 죽인다

r/LocalLLaMA의 한 개발자가 약 20턴 후에 토큰 사용량이 급증하고 에이전트 출력이 형편없어지는 것을 발견하고 API 로그와 프롬프트 페이로드를 감사했습니다. 결론: 모델이 더 나빠진 것이 아니라, 자체적으로 부풀려진 컨텍스트 윈도우에 질식하고 있다는 것입니다.

네 가지 구조적 실수

Cursor와 Claude Code가 1만 줄 이상의 저장소에서 실제로 수행하는 작업을 검사한 후, 작성자는 네 가지 패턴을 식별했습니다:

맹목적 탐색: 에이전트가 하나의 유틸리티 함수를 찾기 위해 재귀적으로 grep하고 ~40개의 서로 다른 파일을 컨텍스트에 덤프합니다. 종종 기존 컴포넌트를 놓치고 처음부터 중복을 환각합니다.
원시 수집: 5줄 인터페이스를 업데이트하기 위해 2,000줄짜리 파일을 프롬프트에 덤프합니다. 많은 컨텍스트 토큰을 낭비합니다.
도구 남용: 장황한 테스트 로그와 거대한 MCP 도구 정의가 모델이 코드 한 줄을 생성하기 전에 약 3만 토큰을 소모합니다.
금붕어 기억: 모든 세션이 새로 시작되어 프로젝트 인식이 전혀 없으므로 동일한 파일이 반복적으로 다시 읽힙니다.

80% 컨텍스트에서의 전환점

컨텍스트가 노이즈로 약 80% 용량에 도달하면 모델의 어텐션 메커니즘이 급격히 저하됩니다. IQ가 눈에 띄게 방 온도 수준으로 떨어지고 아키텍처를 파괴하기 시작합니다. 표준 청킹 RAG는 논리에 쓸모없기 때문에 이 문제를 해결하지 못합니다. 에이전트는 원시 텍스트를 읽기 위해 토큰을 소모하기 전까지 코드베이스 구조를 인식하지 못합니다.

제안된 수정: AST 또는 그래프 DB

작성자는 컨텍스트를 소비하기 전에 코드를 AST 또는 그래프 데이터베이스로 파싱하는 오픈소스 에이전트를 요구합니다. 이를 통해 원시 텍스트에 토큰을 낭비하지 않고 구조를 이해할 수 있습니다. 이는 타이핑에서 절약된 1시간당 5시간을 수정에 소모하게 만드는 아키텍처 스파게티를 방지할 것입니다.