벤치마크 결과, 컨텍스트 엔진이 SWE-bench에서 AI 코딩 에이전트 비용을 3배 절감하는 것으로 나타났습니다.

✍️ OpenClawRadar📅 게시일: March 23, 2026🔗 Source
벤치마크 결과, 컨텍스트 엔진이 SWE-bench에서 AI 코딩 에이전트 비용을 3배 절감하는 것으로 나타났습니다.
Ad

한 개발자가 동일한 Claude Opus 4.5 모델을 사용하여 SWE-bench Verified에서 네 가지 AI 코딩 에이전트를 벤치마킹했으며, 컨텍스트 관리가 유일한 변수였습니다. 결과는 유사한 성능 수준에 대해 상당한 비용 차이를 보여줍니다.

벤치마크 설정

테스트는 SWE-bench Verified의 100개 작업으로 구성된 계층화된 하위 집합을 사용했으며, 모든 12개의 저장소가 비례적으로 표현되었습니다. 모든 에이전트는 동일한 작업당 $3 예산과 250턴 제한으로 Claude Opus 4.5를 실행했습니다. 유일한 차이는 모델 앞에 있는 컨텍스트 계층이었습니다.

결과

  • 컨텍스트 엔진 + Claude Code: 73.0% Pass@1, 작업당 $0.67
  • Live-SWE-Agent: 72.0% Pass@1, 작업당 $0.86
  • OpenHands: 70.0% Pass@1, 작업당 $1.77
  • Sonar Foundation: 70.0% Pass@1, 작업당 $1.98

가장 비싼 설정은 더 낮은 해결율에 대해 작업당 3배 더 많은 비용이 듭니다. 8개의 작업은 컨텍스트 계층이 있는 설정에서만 해결되었습니다 - 모델이 올바른 코드를 보지 않고는 수정할 수 없는 버그들입니다.

제한 사항

matplotlib(렌더링이 많고 시각적 출력 코드)에서는 컨텍스트 엔진이 43%의 점수를 기록한 반면, Sonar Foundation은 86%를 달성했습니다. 그래프 기반 컨텍스트는 관련 코드가 종속성 체인을 따르지 않을 때 효과적이지 않습니다.

Ad

컨텍스트 계층 작동 방식

Claude가 전체 파일을 읽도록 하는 대신, tree-sitter + SQLite(30개 언어 지원)를 사용하여 코드베이스를 종속성 그래프로 사전 인덱싱하고 순위가 매겨진 컨텍스트 캡슐을 반환합니다: 중요한 함수에 대한 전체 소스, 그들과 연결된 모든 것에 대한 스켈레톤화된 시그니처. 에이전트는 모든 작업을 시작할 때 이미 관련된 내용을 알고 있습니다.

MCP를 통해 세션 간에 지속되는 세션 메모리를 포함합니다. 코드가 변경되면 이전 관찰이 자동으로 오래된 것으로 표시되어 에이전트가 동일한 내용을 다시 탐색하지 않습니다.

이 시스템은 클라우드, 계정, 코드가 사용자의 기기를 떠나는 것 없이 100% 로컬로 작동합니다. Claude Code 및 MCP를 통한 11개의 다른 에이전트와 함께 작동합니다.

오픈 소스 가용성

벤치마크 하네스, 모든 평가 로그, 인스턴스별 결과 및 비교 스크립트는 GitHub의 github.com/Vexp-ai/vexp-swe-bench에서 사용할 수 있습니다. 도구 자체는 vexp.dev에서 무료 티어, VS Code 확장 또는 CLI로 사용할 수 있습니다. 차트가 포함된 전체 벤치마크 결과는 vexp.dev/benchmark에서 확인할 수 있습니다.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Chromeflow: Claude를 위한 웹 UI 작업 자동화 Chrome 확장 프로그램
Tools

Chromeflow: Claude를 위한 웹 UI 작업 자동화 Chrome 확장 프로그램

Chromeflow는 Claude Code로 구축된 무료 오픈소스 Chrome 확장 프로그램 및 MCP 서버로, Claude에게 브라우저 제어 기능을 제공하여 Stripe, Supabase, SendGrid 설정과 같은 수동 웹 UI 작업을 자동화합니다. 클릭할 요소를 강조 표시하고, 필드를 채우고, 저장 버튼을 클릭하며, API 키를 직접 .env 파일에 기록합니다.

OpenClawRadar
VectorClaw v1.0.0: Anki Vector 로봇 제어용 MCP 서버
Tools

VectorClaw v1.0.0: Anki Vector 로봇 제어용 MCP 서버

VectorClaw v1.0.0는 OpenClaw가 음성, 동작, 인지, 센서, 디스플레이 기능을 위한 23가지 특정 도구를 통해 Anki Vector 로봇을 제어할 수 있게 해주는 MCP 서버입니다.

OpenClawRadar
함대 사령관: 다중 클로드 코드 에이전트 팀을 조율하기 위한 오픈소스 대시보드
Tools

함대 사령관: 다중 클로드 코드 에이전트 팀을 조율하기 위한 오픈소스 대시보드

Fleet Commander는 여러 Claude Code 에이전트 팀을 다양한 이슈에 대해 병렬로 실행하는 로컬 웹 대시보드입니다. '다이아몬드 팀' 구조를 사용하며, Planner, Dev, Reviewer 에이전트가 SendMessage를 통해 피어 투 피어로 통신합니다.

OpenClawRadar
Opendesk: Claude Code를 통한 AI 데스크톱 제어를 위한 MCP + SOM 알고리즘
Tools

Opendesk: Claude Code를 통한 AI 데스크톱 제어를 위한 MCP + SOM 알고리즘

Opendesk는 커스텀 SOM 알고리즘을 갖춘 MCP 서버로, AI 에이전트가 당신의 데스크톱에 눈과 손을 갖게 해줍니다. Claude Code 또는 모든 에이전트 도구와 통합되어 마우스/키보드 제어, 학습, 재생, 스케줄링이 가능합니다.

OpenClawRadar