Agent-Xray : Outil open-source pour déboguer les défaillances des agents IA à partir des journaux de traces

Agent-Xray est un outil open-source pour déboguer les agents IA en analysant leurs journaux de traces. Il a été créé pour résoudre le problème des agents qui échouent à des tâches sans erreurs claires - des situations où le code s'exécute correctement mais l'agent prend de mauvaises décisions, comme appeler à plusieurs reprises le mauvais outil malgré des messages d'erreur suggérant le bon.
Fonctionnalités principales
L'outil lit les journaux de traces et fournit une évaluation structurelle et une classification des causes profondes des échecs des agents. Il reconstruit ce que l'agent voyait à chaque étape pour aider à comprendre pourquoi de mauvaises décisions ont été prises.
Catégories d'échec
- spin
- tool_bug
- early_abort
Mode d'application
La fonctionnalité la plus importante selon le créateur est le mode d'application. Après avoir corrigé un bogue d'agent, ce mode exécute des défis adverses contre vos correctifs pour vérifier qu'ils sont légitimes. Il vérifie :
- Les retours codés en dur
- Les assertions affaiblies
Cela résout le problème où les correctifs pourraient fonctionner sur des tâches de test spécifiques mais sont en réalité fragiles, ou où les agents apprennent à contourner le test.
Intégration au flux de travail
L'outil s'exécute en tant qu'outils MCP, permettant à Claude Code de l'utiliser directement. Un flux de travail typique décrit dans la source :
- Demander à Claude Code de trier les traces des agents
- Il trouve l'échec le plus grave
- Rejoue ce que l'agent a vu
- Suggère un correctif
- Le mode d'application vérifie que le correctif est légitime
Le créateur décrit cela comme "des agents qui déboguent des agents".
Détails techniques
- Installation :
pip install agent-xray - Démarrage rapide :
agent-xray quickstart(inclut des traces d'exemple pour tester sans vos propres données) - Licence : MIT
- Zéro dépendance
- Fonctionne hors ligne
- Fonctionne avec OpenAI, Anthropic, LangChain, CrewAI, traces OpenTelemetry
- Âge du projet : Environ 9 jours au moment de la publication
Cas d'utilisation
Cet outil est destiné aux développeurs travaillant avec des agents IA qui doivent déboguer des échecs qui ne produisent pas d'erreurs ou de traces d'appel traditionnelles - des situations où les agents prennent des décisions incorrectes malgré l'accès aux bons outils et informations.
📖 Read the full source: r/ClaudeAI
👀 See Also

L'optimisation de l'ANE par des expériences d'IA pilotées par téléphone démontre les avantages de la fusion de noyaux
Un développeur a mené 55 expériences d'optimisation sur le moteur neuronal d'Apple, pilotant le processus depuis son téléphone en utilisant Claude pour le brainstorming. Les améliorations clés incluent la fusion de 3 noyaux ANE en 1 méga-noyau, réduisant la perte de validation de 3,75 à 2,49 et le temps d'étape de 176 ms à 96 ms.

Compétence OpenClaw 'Conseils d'Attente' Affiche des Astuces d'Apprentissage Pendant les Temps d'Attente des Réponses IA
La compétence 'Waiting Tips' pour OpenClaw envoie immédiatement un conseil d'apprentissage aléatoire lorsqu'un utilisateur envoie un message, comblant ainsi les 5 à 10 secondes d'attente des réponses IA avec du contenu utile. Elle comprend 75 conseils bilingues dans cinq catégories et fonctionne sur plusieurs plateformes de messagerie.

Red Queen : Un orchestrateur déterministe qui utilise Claude Code comme pool de travailleurs
Red Queen utilise une machine d'états pour orchestrer les sous-processus Claude Code, éliminant les erreurs de routage LLM et le gaspillage de tokens liés aux méga-prompts.

Claude Code Skill Convertit les Designs Stitch en Next.js sans Dérive de Pixel
Une compétence Claude Code convertit les designs Google Stitch AI en composants Next.js avec des points de contrôle de vérification obligatoires pour éviter le décalage de pixels, préservant les valeurs exactes et gérant les ressources.