ベンチマークによると、コンテキストエンジンにより、SWE-benchでのAIコーディングエージェントのコストが3分の1に削減されました。

ある開発者が、同じClaude Opus 4.5モデルを使用し、コンテキスト管理のみを変数として、SWE-bench Verifiedで4つのAIコーディングエージェントをベンチマークしました。結果は、同程度の性能レベルに対して大幅なコスト差があることを示しています。
ベンチマークの設定
このテストでは、SWE-bench Verifiedの100タスクの層別サブセットを使用し、12のリポジトリすべてが比例して表現されています。すべてのエージェントは同じ$3/タスクの予算と250ターンの制限でClaude Opus 4.5を実行しました。唯一の違いは、モデルの前にあるコンテキストレイヤーでした。
結果
- コンテキストエンジン + Claude Code: 73.0% Pass@1, $0.67/タスク
- Live-SWE-Agent: 72.0% Pass@1, $0.86/タスク
- OpenHands: 70.0% Pass@1, $1.77/タスク
- Sonar Foundation: 70.0% Pass@1, $1.98/タスク
最も高価な設定は、解決率が低いにもかかわらず、タスクあたり3倍のコストがかかります。8つのタスクは、コンテキストレイヤーを持つ設定のみで解決されました。これは、適切なコードを見なければモデルが修正できなかったバグです。
制限事項
matplotlib(レンダリングが重く、視覚的な出力コード)では、コンテキストエンジンは43%のスコアでしたが、Sonar Foundationは86%を達成しました。関連するコードが依存関係チェーンに従わない場合、グラフベースのコンテキストは効果が低くなります。
コンテキストレイヤーの仕組み
Claudeにファイル全体を読ませる代わりに、コードベースをtree-sitter + SQLite(30言語対応)を使用して依存関係グラフに事前インデックス化し、ランク付けされたコンテキストカプセルを返します。重要な関数の完全なソースと、それらに関連するすべてのもののスケルトン化されたシグネチャを含みます。エージェントは、各タスクを開始する時点で何が関連しているかを既に知っています。
また、MCPを介してセッション間で持続するセッションメモリを含みます。コードが変更されると、以前の観察は自動的に古いものとしてフラグが立てられるため、エージェントは同じものを再探索しません。
このシステムは100%ローカルで動作し、クラウド、アカウント、コードの外部送信は一切ありません。Claude CodeおよびMCPを介した他の11のエージェントと連携します。
オープンソースの利用可能性
ベンチマークハーネス、すべての評価ログ、インスタンスごとの結果、比較スクリプトは、GitHubのgithub.com/Vexp-ai/vexp-swe-benchで利用可能です。ツール自体はvexp.devで無料ティア、VS Code拡張機能、またはCLIとして利用できます。チャート付きの完全なベンチマーク結果はvexp.dev/benchmarkにあります。
📖 Read the full source: r/ClaudeAI
👀 See Also

Visual Studio 2022拡張機能がローカルLLM向けにネイティブOllama統合を追加
Visual Studio 2022用の無料拡張機能は、ローカルのOllamaエンドポイントに直接接続し、ツール間の切り替えなしでプライベートなAIコーディング支援を可能にします。DeepSeekやLlama 3などのモデルをサポートし、クラウドフォールバックオプションも備えています。

SwiftUIエージェントスキル:AIによるビュー開発の強化
SwiftUI Agent Skillは、AIを活用してSwiftUIビュー開発を改善するオープンソースツールで、ベストプラクティスと最適化を組み込んでいます。

Pali v0.1: 再現可能なベンチマークを備えたLLM向けオープンソースメモリ基盤
Paliは、Goで構築されたシングルバイナリのオープンソースLLMメモリ基盤で、マルチテナントAPI、ハイブリッド検索、プラグアンドプレイ拡張機能を備えています。v0.1リリースには、異なる構成でのパフォーマンス指標を示す再現可能な結果を含むベンチマークスイートが含まれています。

マニュアル駆動開発:クロードコードの自信過剰な逸脱を防ぐ方法
マニュアル駆動開発(MDD)は、Claude Codeにおける自信過剰な乖離に対処する手法です。AIが誤った前提に基づいて、自身のテストを通過する誤ったコードを生成する問題を解決します。本番環境監査では、MDDが190件の問題を発見し、8時間未満で876件の新規テストを作成し、ルール違反を排除しました。