Gain de 34,2 % : Moteur de Contexte Agentique Open-Source

Automatisation du processus d'amélioration des agents

Un développeur a open-sourcé un système qui automatise l'ensemble du processus d'amélioration des agents IA en leur permettant de s'auto-analyser et de s'auto-corriger. L'outil résout le problème courant de lecture manuelle des logs, d'ajustement des prompts et d'espoir d'améliorations.

Le processus en cinq étapes

La boucle automatisée suit cinq étapes distinctes :

Analyse des traces : Analyse les traces pour déterminer non seulement ce qui a échoué mais pourquoi, si c'est un problème ponctuel ou systémique, et quelle catégorie d'échec il s'agit. Produit une analyse structurée des modes d'échec plutôt que de simples listes d'erreurs.
Génération d'évaluations : Crée des évaluations spécifiques pour valider l'analyse et mesurer les correctifs. Les évaluations génériques ne détectent pas les échecs spécifiques. LLM-en-tant-que-juge sert de solution de repli lorsque les données de trace ne sont pas assez structurées pour des évaluations déterministes.
Mesure de référence : Exécute les évaluations sur l'agent actuel avant d'appliquer des correctifs pour établir des références et valider les évaluations elles-mêmes.
Mise en œuvre des correctifs : Un développeur examine l'analyse et la base de code pour décider quoi changer. La décision clé est de savoir si le correctif appartient au prompt ou au code environnant (par exemple, lorsque le harnais gère mal les sorties d'outils ou ne transmet pas le bon contexte).
Vérification et cumul : Après les correctifs, les évaluations sont réexécutées pour vérifier l'amélioration, avec des changements conservés, annulés ou retravaillés.

Détails d'implémentation

La solution automatise l'ensemble de cette boucle de bout en bout avec une seule commande qui invoque un système agentique auto-analysant. L'analyse des traces se produit dans un environnement REPL avec des agents spécialisés pour ce cas d'usage spécifique. Le système fournit l'analyse via un accès CLI à Claude Code pour gérer le reste avec un ensemble de compétences.

Puisque Claude peut vivre dans la base de code, il valide l'analyse et décide de la meilleure ligne de conduite lors de l'étape de correction (prompt vs. code).

Résultats et fonctionnement

Évalué sur Tau-2 Bench en utilisant une seule itération, le premier passage a obtenu un gain de précision de 34,2 % sans intervention manuelle. Le système est conçu pour cumuler les améliorations : de nouvelles traces révèlent de nouveaux problèmes, conduisant à de nouveaux correctifs à chaque cycle.

Vous pouvez le configurer pour boucler entièrement de manière autonome. Une option avec intervention humaine existe si vous souhaitez approuver les correctifs avant l'étape 4, mais lors des tests, le développeur a "simplement laissé faire".

L'outil est open-sourcé sur GitHub : https://github.com/kayba-ai/agentic-context-engine

📖 Read the full source: r/ClaudeAI

Moteur de Contexte Agentique : Boucle d'Amélioration Automatisée des Agents avec un Gain de Précision de 34,2 %

Automatisation du processus d'amélioration des agents

Le processus en cinq étapes

Détails d'implémentation

Résultats et fonctionnement

👀 See Also

Console Pilote : Tableau de Bord Web pour la Gestion de Réseaux d'Agents IA Privés

Système de traduction auto-mise à jour pour OpenClaw maintient automatiquement les glossaires de domaine.

Plugin Spectyra pour OpenClaw : Optimisation des coûts IA en temps réel par analyse du flux complet des requêtes

Serveur MCP memv : Mémoire structurée persistante pour agents IA