コンテキストエンジンでSWE-bench合格率73%、コスト67%削減

ある開発者が、同じClaude Opus 4.5モデルを使用し、コンテキスト管理のみを変数として、SWE-bench Verifiedで4つのAIコーディングエージェントをベンチマークしました。結果は、同程度の性能レベルに対して大幅なコスト差があることを示しています。

ベンチマークの設定

このテストでは、SWE-bench Verifiedの100タスクの層別サブセットを使用し、12のリポジトリすべてが比例して表現されています。すべてのエージェントは同じ$3/タスクの予算と250ターンの制限でClaude Opus 4.5を実行しました。唯一の違いは、モデルの前にあるコンテキストレイヤーでした。

結果

コンテキストエンジン + Claude Code: 73.0% Pass@1, $0.67/タスク
Live-SWE-Agent: 72.0% Pass@1, $0.86/タスク
OpenHands: 70.0% Pass@1, $1.77/タスク
Sonar Foundation: 70.0% Pass@1, $1.98/タスク

最も高価な設定は、解決率が低いにもかかわらず、タスクあたり3倍のコストがかかります。8つのタスクは、コンテキストレイヤーを持つ設定のみで解決されました。これは、適切なコードを見なければモデルが修正できなかったバグです。

制限事項

matplotlib（レンダリングが重く、視覚的な出力コード）では、コンテキストエンジンは43%のスコアでしたが、Sonar Foundationは86%を達成しました。関連するコードが依存関係チェーンに従わない場合、グラフベースのコンテキストは効果が低くなります。

コンテキストレイヤーの仕組み

Claudeにファイル全体を読ませる代わりに、コードベースをtree-sitter + SQLite（30言語対応）を使用して依存関係グラフに事前インデックス化し、ランク付けされたコンテキストカプセルを返します。重要な関数の完全なソースと、それらに関連するすべてのもののスケルトン化されたシグネチャを含みます。エージェントは、各タスクを開始する時点で何が関連しているかを既に知っています。

また、MCPを介してセッション間で持続するセッションメモリを含みます。コードが変更されると、以前の観察は自動的に古いものとしてフラグが立てられるため、エージェントは同じものを再探索しません。

このシステムは100%ローカルで動作し、クラウド、アカウント、コードの外部送信は一切ありません。Claude CodeおよびMCPを介した他の11のエージェントと連携します。

オープンソースの利用可能性

ベンチマークハーネス、すべての評価ログ、インスタンスごとの結果、比較スクリプトは、GitHubのgithub.com/Vexp-ai/vexp-swe-benchで利用可能です。ツール自体はvexp.devで無料ティア、VS Code拡張機能、またはCLIとして利用できます。チャート付きの完全なベンチマーク結果はvexp.dev/benchmarkにあります。

📖 Read the full source: r/ClaudeAI