Compétence Claude Vérifie Code: Auto-Audit Révèle Hallucinations

Architecture de la Compétence de Vérification de Véracité

Un chercheur spécialisé en science du sommeil de l'Université de Miami a créé une compétence Claude Code appelée /veracity-tweaked-555 qui décompose les documents en affirmations atomiques et vérifie chacune via une recherche web. L'outil utilise 16 agents parallèles sur 4 vagues par exécution et a été développé en collaboration avec Claude Code (Opus 4.6), où Claude a rédigé le code tandis que le chercheur a conçu la méthodologie.

Résultats de l'Auto-Audit et Modèles d'Erreur

Lorsque le chercheur a exécuté le vérificateur de véracité sur sa propre documentation SKILL.md, il a obtenu 62 sur 100. La compétence conçue pour détecter les hallucinations avait inventé des faits dans sa propre documentation, notamment :

Fabrication d'une statistique de performance ("3x plus précis" pour SAFE, ce que l'article ne prétend jamais)
Exagération d'une revendication d'amélioration d'un article ("+35,5%" était en réalité +5,5% par rapport à l'état de l'art)
Fabrication d'une expansion d'acronyme pour une technique réelle

Après des corrections initiales, le score a atteint 80, puis 84 après une troisième exécution. Une semaine plus tard, après une boucle de convergence plus rigoureuse avec 6 exécutions, 19 agents et 35 corrections supplémentaires, il s'est stabilisé à 96,5/100. Cependant, l'audit v3 est tombé à 74 car les corrections v1 avaient introduit de nouvelles erreurs (un coût en tokens sous-estimé et une liste d'outils incomplète).

Les erreurs suivent des modèles cohérents : exagération d'attribution (langage légèrement plus fort que ne le justifie la source), identifiants plausibles mais fabriqués (PMID, arXiv ID qui semblent réels mais pointent vers d'autres articles), et statistiques obsolètes présentées comme actuelles.

Défi de l'Ingénierie du Contexte

Une seule exécution d'audit génère environ 917K tokens sur 16 agents, dépassant la fenêtre de contexte de 200K de Claude Code. Lorsque Claude Code compacte les conversations pour rester dans les limites, il effectue une compression avec perte. Après quelques compactages, l'agent perd la trace de la relation entre les découvertes — quelle correction a causé quelle régression, quelle affirmation contredit quelle autre. Les faits individuels (noms, chiffres, signatures de fonction) survivent mieux que les connexions entre eux.

Le diagnostic de Claude était que les informations relationnelles — chaînes causales, références croisées, dépendances multi-étapes — sont plus difficiles à préserver dans un résumé que les faits isolés.

Solution et Audits Supplémentaires de Compétences

Le chercheur a résolu cela en créant une compétence complémentaire appelée /context-engineer qui prédit le dépassement avant qu'il ne se produise et externalise l'état relationnel vers des fichiers JSON sur disque. Le test de conception : si vous pouvez /clear toute votre conversation et reprendre uniquement à partir du fichier d'état, l'architecture est correcte.

L'exécution de vérifications de véracité sur d'autres compétences Claude Code a révélé :

Une compétence avait un titre d'article fabriqué dans sa section d'attribution — la citation semblait parfaite (auteurs, lieu) mais le titre était inventé et l'année était erronée
La même compétence a mal attribué un cadre d'audit au mauvais organisme de normalisation, apparaissant à plusieurs endroits
La compétence /context-engineer avait des incohérences internes — le texte disait "5-10K tokens" tandis qu'un tableau indiquait "5-15K tokens" pour la même métrique

12 corrections au total étaient nécessaires sur toutes les compétences. Toutes ont réussi avec 95+ sur 3 exécutions consécutives après corrections.

📖 Lire la source complète : r/ClaudeAI

Chercheur développe une compétence de vérification de véracité pour le code Claude, découvre des hallucinations dans sa propre documentation.

Architecture de la Compétence de Vérification de Véracité

Résultats de l'Auto-Audit et Modèles d'Erreur

Défi de l'Ingénierie du Contexte

Solution et Audits Supplémentaires de Compétences

👀 See Also

Blindspot MCP : Un cerveau externe pour les agents d'IA de codage

Toothcomb : Vérificateur de faits en temps réel pour la parole, open-source, construit avec les API Claude Opus et Sonnet

Utiliser pre-commit pour améliorer la qualité et la sécurité du code généré par l'IA

Pont IDE Open-Source Claude Connecte Dispatch, Application de Bureau et Claude Code