Moteur de Contexte Agentique : Boucle d'Amélioration Automatisée des Agents avec un Gain de Précision de 34,2 %

✍️ OpenClawRadar📅 Publié: March 17, 2026🔗 Source
Moteur de Contexte Agentique : Boucle d'Amélioration Automatisée des Agents avec un Gain de Précision de 34,2 %
Ad

Automatisation du processus d'amélioration des agents

Un développeur a open-sourcé un système qui automatise l'ensemble du processus d'amélioration des agents IA en leur permettant de s'auto-analyser et de s'auto-corriger. L'outil résout le problème courant de lecture manuelle des logs, d'ajustement des prompts et d'espoir d'améliorations.

Le processus en cinq étapes

La boucle automatisée suit cinq étapes distinctes :

  • Analyse des traces : Analyse les traces pour déterminer non seulement ce qui a échoué mais pourquoi, si c'est un problème ponctuel ou systémique, et quelle catégorie d'échec il s'agit. Produit une analyse structurée des modes d'échec plutôt que de simples listes d'erreurs.
  • Génération d'évaluations : Crée des évaluations spécifiques pour valider l'analyse et mesurer les correctifs. Les évaluations génériques ne détectent pas les échecs spécifiques. LLM-en-tant-que-juge sert de solution de repli lorsque les données de trace ne sont pas assez structurées pour des évaluations déterministes.
  • Mesure de référence : Exécute les évaluations sur l'agent actuel avant d'appliquer des correctifs pour établir des références et valider les évaluations elles-mêmes.
  • Mise en œuvre des correctifs : Un développeur examine l'analyse et la base de code pour décider quoi changer. La décision clé est de savoir si le correctif appartient au prompt ou au code environnant (par exemple, lorsque le harnais gère mal les sorties d'outils ou ne transmet pas le bon contexte).
  • Vérification et cumul : Après les correctifs, les évaluations sont réexécutées pour vérifier l'amélioration, avec des changements conservés, annulés ou retravaillés.
Ad

Détails d'implémentation

La solution automatise l'ensemble de cette boucle de bout en bout avec une seule commande qui invoque un système agentique auto-analysant. L'analyse des traces se produit dans un environnement REPL avec des agents spécialisés pour ce cas d'usage spécifique. Le système fournit l'analyse via un accès CLI à Claude Code pour gérer le reste avec un ensemble de compétences.

Puisque Claude peut vivre dans la base de code, il valide l'analyse et décide de la meilleure ligne de conduite lors de l'étape de correction (prompt vs. code).

Résultats et fonctionnement

Évalué sur Tau-2 Bench en utilisant une seule itération, le premier passage a obtenu un gain de précision de 34,2 % sans intervention manuelle. Le système est conçu pour cumuler les améliorations : de nouvelles traces révèlent de nouveaux problèmes, conduisant à de nouveaux correctifs à chaque cycle.

Vous pouvez le configurer pour boucler entièrement de manière autonome. Une option avec intervention humaine existe si vous souhaitez approuver les correctifs avant l'étape 4, mais lors des tests, le développeur a "simplement laissé faire".

L'outil est open-sourcé sur GitHub : https://github.com/kayba-ai/agentic-context-engine

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Gem Rails-AI-Context Fournit à Claude le Code du Modèle Complet de l'Application Rails via MCP
Tools

Gem Rails-AI-Context Fournit à Claude le Code du Modèle Complet de l'Application Rails via MCP

La gemme rails-ai-context introspecte automatiquement les applications Rails et expose 39 outils via MCP, permettant à Claude Code d'interroger des détails spécifiques de l'application comme le schéma avec les colonnes chiffrées, les associations de modèles, les routes, le câblage Stimulus et les mappages Turbo au lieu de lire des fichiers entiers.

OpenClawRadar
Noren AI : L'outil d'extraction vocale identifie les schémas d'écriture à partir d'échantillons
Tools

Noren AI : L'outil d'extraction vocale identifie les schémas d'écriture à partir d'échantillons

Noren AI analyse 5 à 10 échantillons d'écriture pour générer automatiquement un guide vocal basé sur des motifs réels, correspondant à 90 % des motifs identifiés manuellement et en découvrant des motifs supplémentaires.

OpenClawRadar
Le serveur MCP pop-pay ajoute des garde-fous de paiement pour les agents Claude Code.
Tools

Le serveur MCP pop-pay ajoute des garde-fous de paiement pour les agents Claude Code.

pop-pay est un serveur MCP qui permet aux agents Claude Code de gérer des achats sans exposer les numéros de carte de crédit. Il utilise l'injection CDP pour placer directement les informations de carte virtuelle dans les iframes de paiement, Claude ne recevant que des numéros de confirmation masqués.

OpenClawRadar
Claude Code v2.1.142 : Nouveaux drapeaux des agents Claude, Opus 4.7 par défaut et corrections de bugs
Tools

Claude Code v2.1.142 : Nouveaux drapeaux des agents Claude, Opus 4.7 par défaut et corrections de bugs

Claude Code v2.1.142 ajoute huit nouveaux drapeaux pour configurer les sessions en arrière-plan, passe le mode rapide par défaut à Opus 4.7 et corrige plus d'une douzaine de bugs, notamment le délai d'attente des outils MCP, les problèmes du démon lors des veilles/réveils de macOS et les blocages sur les lecteurs réseau Windows.

OpenClawRadar