73% Erfolgsquote: Kontext-Engine senkt KI-Coding-Kosten um 3x

Ein Entwickler hat vier KI-Coding-Agents auf SWE-bench Verified mit demselben Claude Opus 4.5-Modell getestet, wobei nur das Kontextmanagement variierte. Die Ergebnisse zeigen erhebliche Kostendifferenzen bei ähnlichen Leistungsniveaus.

Benchmark-Aufbau

Der Test verwendete einen geschichteten 100-Aufgaben-Ausschnitt von SWE-bench Verified mit proportionaler Repräsentation aller 12 Repositories. Alle Agents liefen mit Claude Opus 4.5 mit demselben Budget von 3 $/Aufgabe und einem 250-Schritte-Limit. Der einzige Unterschied war die Kontextschicht vor dem Modell.

Ergebnisse

Kontext-Engine + Claude Code: 73,0 % Pass@1, 0,67 $/Aufgabe
Live-SWE-Agent: 72,0 % Pass@1, 0,86 $/Aufgabe
OpenHands: 70,0 % Pass@1, 1,77 $/Aufgabe
Sonar Foundation: 70,0 % Pass@1, 1,98 $/Aufgabe

Die teuerste Konfiguration kostet dreimal mehr pro Aufgabe bei einer niedrigeren Lösungsquote. Acht Aufgaben wurden nur von der Konfiguration mit der Kontextschicht gelöst – Fehler, die das Modell ohne den richtigen Code nicht beheben konnte.

Einschränkungen

Bei matplotlib (renderlastiger Code mit visueller Ausgabe) erzielte die Kontext-Engine 43 %, während Sonar Foundation 86 % erreichte. Graphbasierter Kontext ist weniger effektiv, wenn relevanter Code nicht Abhängigkeitsketten folgt.

Wie die Kontextschicht funktioniert

Anstatt Claude ganze Dateien lesen zu lassen, indiziert sie die Codebasis vorab in einen Abhängigkeitsgraphen mit tree-sitter + SQLite (30 Sprachen unterstützt) und liefert eine bewertete Kontextkapsel: vollständigen Quellcode für wichtige Funktionen, skelettierte Signaturen für alles, was mit ihnen verbunden ist. Der Agent beginnt jede Aufgabe bereits mit Wissen über die Relevanz.

Sie beinhaltet Sitzungsspeicher, der über MCP sitzungsübergreifend erhalten bleibt. Bei Codeänderungen werden frühere Beobachtungen automatisch als veraltet markiert, sodass der Agent nicht dieselben Dinge erneut erkundet.

Das System ist 100 % lokal ohne Cloud, ohne Konto und ohne dass Code Ihren Rechner verlässt. Es funktioniert mit Claude Code und 11 anderen Agents über MCP.

Open-Source-Verfügbarkeit

Die Benchmark-Harness, alle Auswertungsprotokolle, Ergebnisse pro Instanz und Vergleichsskripte sind auf GitHub unter github.com/Vexp-ai/vexp-swe-bench verfügbar. Das Tool selbst ist unter vexp.dev mit einem kostenlosen Tarif, VS Code-Erweiterung oder CLI erhältlich. Vollständige Benchmark-Ergebnisse mit Diagrammen finden Sie unter vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI

Benchmark zeigt: Kontext-Engine reduziert Kosten für KI-Codierungsagenten bei SWE-bench um das Dreifache

Benchmark-Aufbau

Ergebnisse

Einschränkungen

Wie die Kontextschicht funktioniert

Open-Source-Verfügbarkeit

👀 Siehe auch

Sponsio: Deterministische Sicherheitsvorkehrungen für OpenClaw – Blockierung von „legalen, aber falschen“ Tool-Aufrufen

llmLibrarian: Lokale RAG-Engine mit MCP-Integration für dateibasierte KI-Suche

SkyClaw v2.2 Rust AI Agent Runtime fügt OpenAI OAuth und benutzerdefinierte Tool-Erstellung hinzu

Senden Sie OpenClaw-Agenten als Meeting-Teilnehmer mit Sprache, Chat und Bildschirmfreigabe