Moteur de contexte réduit coûts agent IA codage 3x

Un développeur a évalué quatre agents d'IA de codage sur SWE-bench Verified en utilisant le même modèle Claude Opus 4.5, avec la gestion du contexte comme seule variable. Les résultats montrent des différences de coût significatives pour des niveaux de performance similaires.

Configuration du benchmark

Le test a utilisé un sous-ensemble stratifié de 100 tâches de SWE-bench Verified avec les 12 dépôts représentés proportionnellement. Tous les agents ont exécuté Claude Opus 4.5 avec le même budget de 3 $/tâche et une limite de 250 tours. La seule différence était la couche de contexte placée devant le modèle.

Résultats

Moteur de contexte + Claude Code : 73,0 % Pass@1, 0,67 $/tâche
Live-SWE-Agent : 72,0 % Pass@1, 0,86 $/tâche
OpenHands : 70,0 % Pass@1, 1,77 $/tâche
Sonar Foundation : 70,0 % Pass@1, 1,98 $/tâche

La configuration la plus coûteuse coûte 3 fois plus par tâche pour un taux de résolution inférieur. Huit tâches ont été résolues uniquement par la configuration avec la couche de contexte - des bugs que le modèle ne pouvait pas corriger sans voir le code approprié.

Limitations

Sur matplotlib (code à rendu intensif, sortie visuelle), le moteur de contexte a obtenu 43 % tandis que Sonar Foundation a atteint 86 %. Le contexte basé sur les graphes est moins efficace lorsque le code pertinent ne suit pas les chaînes de dépendances.

Fonctionnement de la couche de contexte

Au lieu de laisser Claude lire des fichiers entiers, il pré-indexe la base de code dans un graphe de dépendances en utilisant tree-sitter + SQLite (30 langages supportés) et renvoie une capsule de contexte classée : le code source complet pour les fonctions importantes, les signatures squelettisées pour tout ce qui leur est connecté. L'agent commence chaque tâche en sachant déjà ce qui est pertinent.

Il inclut une mémoire de session qui persiste entre les sessions via MCP. Lorsque le code change, les observations précédentes sont automatiquement marquées comme obsolètes, de sorte que l'agent ne réexplore pas les mêmes éléments.

Le système est 100 % local, sans cloud, sans compte, et aucun code ne quitte votre machine. Il fonctionne avec Claude Code et 11 autres agents via MCP.

Disponibilité open source

Le cadre de benchmark, tous les journaux d'évaluation, les résultats par instance et les scripts de comparaison sont disponibles sur GitHub à github.com/Vexp-ai/vexp-swe-bench. L'outil lui-même est disponible sur vexp.dev avec un niveau gratuit, une extension VS Code ou une interface CLI. Les résultats complets du benchmark avec graphiques sont sur vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI