Benchmark zeigt: Kontext-Engine reduziert Kosten für KI-Codierungsagenten bei SWE-bench um das Dreifache

Ein Entwickler hat vier KI-Coding-Agents auf SWE-bench Verified mit demselben Claude Opus 4.5-Modell getestet, wobei nur das Kontextmanagement variierte. Die Ergebnisse zeigen erhebliche Kostendifferenzen bei ähnlichen Leistungsniveaus.
Benchmark-Aufbau
Der Test verwendete einen geschichteten 100-Aufgaben-Ausschnitt von SWE-bench Verified mit proportionaler Repräsentation aller 12 Repositories. Alle Agents liefen mit Claude Opus 4.5 mit demselben Budget von 3 $/Aufgabe und einem 250-Schritte-Limit. Der einzige Unterschied war die Kontextschicht vor dem Modell.
Ergebnisse
- Kontext-Engine + Claude Code: 73,0 % Pass@1, 0,67 $/Aufgabe
- Live-SWE-Agent: 72,0 % Pass@1, 0,86 $/Aufgabe
- OpenHands: 70,0 % Pass@1, 1,77 $/Aufgabe
- Sonar Foundation: 70,0 % Pass@1, 1,98 $/Aufgabe
Die teuerste Konfiguration kostet dreimal mehr pro Aufgabe bei einer niedrigeren Lösungsquote. Acht Aufgaben wurden nur von der Konfiguration mit der Kontextschicht gelöst – Fehler, die das Modell ohne den richtigen Code nicht beheben konnte.
Einschränkungen
Bei matplotlib (renderlastiger Code mit visueller Ausgabe) erzielte die Kontext-Engine 43 %, während Sonar Foundation 86 % erreichte. Graphbasierter Kontext ist weniger effektiv, wenn relevanter Code nicht Abhängigkeitsketten folgt.
Wie die Kontextschicht funktioniert
Anstatt Claude ganze Dateien lesen zu lassen, indiziert sie die Codebasis vorab in einen Abhängigkeitsgraphen mit tree-sitter + SQLite (30 Sprachen unterstützt) und liefert eine bewertete Kontextkapsel: vollständigen Quellcode für wichtige Funktionen, skelettierte Signaturen für alles, was mit ihnen verbunden ist. Der Agent beginnt jede Aufgabe bereits mit Wissen über die Relevanz.
Sie beinhaltet Sitzungsspeicher, der über MCP sitzungsübergreifend erhalten bleibt. Bei Codeänderungen werden frühere Beobachtungen automatisch als veraltet markiert, sodass der Agent nicht dieselben Dinge erneut erkundet.
Das System ist 100 % lokal ohne Cloud, ohne Konto und ohne dass Code Ihren Rechner verlässt. Es funktioniert mit Claude Code und 11 anderen Agents über MCP.
Open-Source-Verfügbarkeit
Die Benchmark-Harness, alle Auswertungsprotokolle, Ergebnisse pro Instanz und Vergleichsskripte sind auf GitHub unter github.com/Vexp-ai/vexp-swe-bench verfügbar. Das Tool selbst ist unter vexp.dev mit einem kostenlosen Tarif, VS Code-Erweiterung oder CLI erhältlich. Vollständige Benchmark-Ergebnisse mit Diagrammen finden Sie unter vexp.dev/benchmark.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Fewshell: Ein selbst gehosteter SSH-Copilot, der Befehle nur mit menschlicher Genehmigung ausführt
Fewshell ist ein mobiler+Desktop-SSH-Copilot mit zwingender menschlicher Freigabe für jeden Befehl – es gibt keine Einstellung, um eine automatische Freigabe zu aktivieren. Entwickelt von einem ehemaligen Amazon-KI-Entwickler, der an KI-Sicherheitsforschung arbeitet.

OpenClaw-Fähigkeit 'Wartetipps' zeigt Lerntipps während der Wartezeit auf KI-Antworten
Die 'Waiting Tips'-Fähigkeit für OpenClaw sendet sofort einen zufälligen Lerntipp, wenn ein Nutzer eine Nachricht schickt, und füllt die 5-10 Sekunden Wartezeit auf KI-Antworten mit nützlichem Inhalt. Sie umfasst 75 zweisprachige Tipps in fünf Kategorien und funktioniert über mehrere Messaging-Plattformen hinweg.

AutoDream: 11-Hook-Speichersystem für Claude Code mit Sicherheitsfunktionen
AutoDream ist ein Open-Source-Tool, das Projektspeicherpersistenz und Befehlsicherheit zu Claude Code hinzufügt. Es verwendet 11 Hooks über 6 Ereignisse hinweg, um Kontext einzuspritzen, gefährliche Befehle zu blockieren und den /compact-Vorgang zu überstehen.

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um
Anthropic veröffentlichte Natural Language Autoencoders (NLA), die den internen Zustand eines Modells in Text dekodieren. Gepaart mit Gemma 3 erklärt der Auto Verbalizer, was das Modell bei jedem generierten Token „dachte". Gewichte gibt es auf Hugging Face; eine Demo auf Neuronpedia.