Le benchmark montre que le moteur de contexte réduit les coûts des agents d'IA de codage par 3 sur SWE-bench.

✍️ OpenClawRadar📅 Publié: March 23, 2026🔗 Source
Le benchmark montre que le moteur de contexte réduit les coûts des agents d'IA de codage par 3 sur SWE-bench.
Ad

Un développeur a évalué quatre agents d'IA de codage sur SWE-bench Verified en utilisant le même modèle Claude Opus 4.5, avec la gestion du contexte comme seule variable. Les résultats montrent des différences de coût significatives pour des niveaux de performance similaires.

Configuration du benchmark

Le test a utilisé un sous-ensemble stratifié de 100 tâches de SWE-bench Verified avec les 12 dépôts représentés proportionnellement. Tous les agents ont exécuté Claude Opus 4.5 avec le même budget de 3 $/tâche et une limite de 250 tours. La seule différence était la couche de contexte placée devant le modèle.

Résultats

  • Moteur de contexte + Claude Code : 73,0 % Pass@1, 0,67 $/tâche
  • Live-SWE-Agent : 72,0 % Pass@1, 0,86 $/tâche
  • OpenHands : 70,0 % Pass@1, 1,77 $/tâche
  • Sonar Foundation : 70,0 % Pass@1, 1,98 $/tâche

La configuration la plus coûteuse coûte 3 fois plus par tâche pour un taux de résolution inférieur. Huit tâches ont été résolues uniquement par la configuration avec la couche de contexte - des bugs que le modèle ne pouvait pas corriger sans voir le code approprié.

Limitations

Sur matplotlib (code à rendu intensif, sortie visuelle), le moteur de contexte a obtenu 43 % tandis que Sonar Foundation a atteint 86 %. Le contexte basé sur les graphes est moins efficace lorsque le code pertinent ne suit pas les chaînes de dépendances.

Ad

Fonctionnement de la couche de contexte

Au lieu de laisser Claude lire des fichiers entiers, il pré-indexe la base de code dans un graphe de dépendances en utilisant tree-sitter + SQLite (30 langages supportés) et renvoie une capsule de contexte classée : le code source complet pour les fonctions importantes, les signatures squelettisées pour tout ce qui leur est connecté. L'agent commence chaque tâche en sachant déjà ce qui est pertinent.

Il inclut une mémoire de session qui persiste entre les sessions via MCP. Lorsque le code change, les observations précédentes sont automatiquement marquées comme obsolètes, de sorte que l'agent ne réexplore pas les mêmes éléments.

Le système est 100 % local, sans cloud, sans compte, et aucun code ne quitte votre machine. Il fonctionne avec Claude Code et 11 autres agents via MCP.

Disponibilité open source

Le cadre de benchmark, tous les journaux d'évaluation, les résultats par instance et les scripts de comparaison sont disponibles sur GitHub à github.com/Vexp-ai/vexp-swe-bench. L'outil lui-même est disponible sur vexp.dev avec un niveau gratuit, une extension VS Code ou une interface CLI. Les résultats complets du benchmark avec graphiques sont sur vexp.dev/benchmark.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Google PM rend public l'agent de mémoire Always On avec stockage SQLite, sans base de données vectorielle
Tools

Google PM rend public l'agent de mémoire Always On avec stockage SQLite, sans base de données vectorielle

Shubham Saboo, directeur de produit IA senior chez Google, a rendu open source un agent de mémoire toujours actif qui stocke des souvenirs structurés dans SQLite au lieu d'utiliser des bases de données vectorielles, fonctionnant sur Gemini 3.1 Flash-Lite avec une consolidation de mémoire planifiée toutes les 30 minutes.

OpenClawRadar
🦀
Tools

Cocall.ai MCP : Appels sortants avec escalade humaine en temps réel

Cocall.ai est un MCP pour Claude qui permet d'effectuer des appels sortants avec un modèle parole-à-parole en duplex intégral. Il peut faire une pause en cours d'appel pour vous poser une question spécifique au lieu de deviner, naviguer dans les menus IVR et vous transférer l'appel si nécessaire.

OpenClawRadar
md-redline : outil GUI pour réviser et transférer des documents Markdown à Claude
Tools

md-redline : outil GUI pour réviser et transférer des documents Markdown à Claude

md-redline est un outil open-source qui vous permet d'ouvrir des fichiers markdown dans une interface graphique, de laisser des commentaires en ligne stockés sous forme de marqueurs HTML dans le fichier .md, et de repasser la main à Claude pour les mises à jour. Il fonctionne localement sans nécessiter de compte, de cloud ou de base de données.

OpenClawRadar
StartClaw : Un outil d'automatisation de navigateur sans interface, basé sur ZeroClaw avec intégration Claude.
Tools

StartClaw : Un outil d'automatisation de navigateur sans interface, basé sur ZeroClaw avec intégration Claude.

StartClaw est un outil d'automatisation de navigateur construit sur la base Rust de ZeroClaw avec Composio v3 pour les intégrations, conçu pour fonctionner sans interface graphique dans le cloud sans nécessiter de matériel local. Il utilise exclusivement Claude pour la fiabilité et inclut une compaction de contexte intégrée qui réduit l'utilisation de jetons d'environ 5 fois.

OpenClawRadar