Chercheur développe une compétence de vérification de véracité pour le code Claude, découvre des hallucinations dans sa propre documentation.
Architecture de la Compétence de Vérification de Véracité
Un chercheur spécialisé en science du sommeil de l'Université de Miami a créé une compétence Claude Code appelée /veracity-tweaked-555 qui décompose les documents en affirmations atomiques et vérifie chacune via une recherche web. L'outil utilise 16 agents parallèles sur 4 vagues par exécution et a été développé en collaboration avec Claude Code (Opus 4.6), où Claude a rédigé le code tandis que le chercheur a conçu la méthodologie.
Résultats de l'Auto-Audit et Modèles d'Erreur
Lorsque le chercheur a exécuté le vérificateur de véracité sur sa propre documentation SKILL.md, il a obtenu 62 sur 100. La compétence conçue pour détecter les hallucinations avait inventé des faits dans sa propre documentation, notamment :
- Fabrication d'une statistique de performance ("3x plus précis" pour SAFE, ce que l'article ne prétend jamais)
- Exagération d'une revendication d'amélioration d'un article ("+35,5%" était en réalité +5,5% par rapport à l'état de l'art)
- Fabrication d'une expansion d'acronyme pour une technique réelle
Après des corrections initiales, le score a atteint 80, puis 84 après une troisième exécution. Une semaine plus tard, après une boucle de convergence plus rigoureuse avec 6 exécutions, 19 agents et 35 corrections supplémentaires, il s'est stabilisé à 96,5/100. Cependant, l'audit v3 est tombé à 74 car les corrections v1 avaient introduit de nouvelles erreurs (un coût en tokens sous-estimé et une liste d'outils incomplète).
Les erreurs suivent des modèles cohérents : exagération d'attribution (langage légèrement plus fort que ne le justifie la source), identifiants plausibles mais fabriqués (PMID, arXiv ID qui semblent réels mais pointent vers d'autres articles), et statistiques obsolètes présentées comme actuelles.
Défi de l'Ingénierie du Contexte
Une seule exécution d'audit génère environ 917K tokens sur 16 agents, dépassant la fenêtre de contexte de 200K de Claude Code. Lorsque Claude Code compacte les conversations pour rester dans les limites, il effectue une compression avec perte. Après quelques compactages, l'agent perd la trace de la relation entre les découvertes — quelle correction a causé quelle régression, quelle affirmation contredit quelle autre. Les faits individuels (noms, chiffres, signatures de fonction) survivent mieux que les connexions entre eux.
Le diagnostic de Claude était que les informations relationnelles — chaînes causales, références croisées, dépendances multi-étapes — sont plus difficiles à préserver dans un résumé que les faits isolés.
Solution et Audits Supplémentaires de Compétences
Le chercheur a résolu cela en créant une compétence complémentaire appelée /context-engineer qui prédit le dépassement avant qu'il ne se produise et externalise l'état relationnel vers des fichiers JSON sur disque. Le test de conception : si vous pouvez /clear toute votre conversation et reprendre uniquement à partir du fichier d'état, l'architecture est correcte.
L'exécution de vérifications de véracité sur d'autres compétences Claude Code a révélé :
- Une compétence avait un titre d'article fabriqué dans sa section d'attribution — la citation semblait parfaite (auteurs, lieu) mais le titre était inventé et l'année était erronée
- La même compétence a mal attribué un cadre d'audit au mauvais organisme de normalisation, apparaissant à plusieurs endroits
- La compétence
/context-engineeravait des incohérences internes — le texte disait "5-10K tokens" tandis qu'un tableau indiquait "5-15K tokens" pour la même métrique
12 corrections au total étaient nécessaires sur toutes les compétences. Toutes ont réussi avec 95+ sur 3 exécutions consécutives après corrections.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Gem Rails-AI-Context Fournit à Claude le Code du Modèle Complet de l'Application Rails via MCP
La gemme rails-ai-context introspecte automatiquement les applications Rails et expose 39 outils via MCP, permettant à Claude Code d'interroger des détails spécifiques de l'application comme le schéma avec les colonnes chiffrées, les associations de modèles, les routes, le câblage Stimulus et les mappages Turbo au lieu de lire des fichiers entiers.

Werld : Simulation de vie artificielle ouverte avec réseaux de neurones évolutifs
Werld est une simulation de vie artificielle en temps réel où des agents dotés de réseaux neuronaux NEAT font évoluer leur propre architecture neuronale, leur traitement sensoriel et leurs comportements sans règles prédéfinies ni fonctions de récompense. La simulation commence avec 30 agents sur un graphe petit-monde de Watts-Strogatz avec 64 canaux sensoriels, 7 fonctions motrices continues et 29 traits génétiques héréditaires.

Serveur MCP Permet à Claude de Créer et Exécuter des Outils Personnalisés à l'Exécution
Un développeur a créé un serveur MCP permettant à Claude de créer, mettre à jour et exécuter de nouveaux outils à l'exécution sans nécessiter de redéploiement. Le système utilise cinq outils principaux et exécute du code JavaScript/TypeScript personnalisé dans un bac à sable Deno avec un démarrage à froid d'environ 50 ms.

Hollow AgentOS réduit l'utilisation de tokens de code Claude de 68,5 % grâce à un OS natif JSON pour les agents IA.
Hollow AgentOS est un système d'exploitation natif JSON conçu spécifiquement pour les agents IA qui réduit l'utilisation de tokens dans Claude Code de 68,5 % en éliminant les surcharges inutiles des commandes shell. Il se connecte à Claude Code via MCP, exécute des inférences locales via Ollama et est sous licence MIT.