SWE-bench 벤치마크: 컨텍스트 엔진으로 AI 코딩 비용 73% 절감

한 개발자가 동일한 Claude Opus 4.5 모델을 사용하여 SWE-bench Verified에서 네 가지 AI 코딩 에이전트를 벤치마킹했으며, 컨텍스트 관리가 유일한 변수였습니다. 결과는 유사한 성능 수준에 대해 상당한 비용 차이를 보여줍니다.

벤치마크 설정

테스트는 SWE-bench Verified의 100개 작업으로 구성된 계층화된 하위 집합을 사용했으며, 모든 12개의 저장소가 비례적으로 표현되었습니다. 모든 에이전트는 동일한 작업당 $3 예산과 250턴 제한으로 Claude Opus 4.5를 실행했습니다. 유일한 차이는 모델 앞에 있는 컨텍스트 계층이었습니다.

결과

컨텍스트 엔진 + Claude Code: 73.0% Pass@1, 작업당 $0.67
Live-SWE-Agent: 72.0% Pass@1, 작업당 $0.86
OpenHands: 70.0% Pass@1, 작업당 $1.77
Sonar Foundation: 70.0% Pass@1, 작업당 $1.98

가장 비싼 설정은 더 낮은 해결율에 대해 작업당 3배 더 많은 비용이 듭니다. 8개의 작업은 컨텍스트 계층이 있는 설정에서만 해결되었습니다 - 모델이 올바른 코드를 보지 않고는 수정할 수 없는 버그들입니다.

제한 사항

matplotlib(렌더링이 많고 시각적 출력 코드)에서는 컨텍스트 엔진이 43%의 점수를 기록한 반면, Sonar Foundation은 86%를 달성했습니다. 그래프 기반 컨텍스트는 관련 코드가 종속성 체인을 따르지 않을 때 효과적이지 않습니다.

컨텍스트 계층 작동 방식

Claude가 전체 파일을 읽도록 하는 대신, tree-sitter + SQLite(30개 언어 지원)를 사용하여 코드베이스를 종속성 그래프로 사전 인덱싱하고 순위가 매겨진 컨텍스트 캡슐을 반환합니다: 중요한 함수에 대한 전체 소스, 그들과 연결된 모든 것에 대한 스켈레톤화된 시그니처. 에이전트는 모든 작업을 시작할 때 이미 관련된 내용을 알고 있습니다.

MCP를 통해 세션 간에 지속되는 세션 메모리를 포함합니다. 코드가 변경되면 이전 관찰이 자동으로 오래된 것으로 표시되어 에이전트가 동일한 내용을 다시 탐색하지 않습니다.

이 시스템은 클라우드, 계정, 코드가 사용자의 기기를 떠나는 것 없이 100% 로컬로 작동합니다. Claude Code 및 MCP를 통한 11개의 다른 에이전트와 함께 작동합니다.

오픈 소스 가용성

벤치마크 하네스, 모든 평가 로그, 인스턴스별 결과 및 비교 스크립트는 GitHub의 github.com/Vexp-ai/vexp-swe-bench에서 사용할 수 있습니다. 도구 자체는 vexp.dev에서 무료 티어, VS Code 확장 또는 CLI로 사용할 수 있습니다. 차트가 포함된 전체 벤치마크 결과는 vexp.dev/benchmark에서 확인할 수 있습니다.

📖 Read the full source: r/ClaudeAI