RAG Agentic avec Claude pour Obsidian : évaluation et détection d'hallucinations

Un développeur sur r/ClaudeAI a construit un système RAG agentique sur son coffre Obsidian pour permettre à Claude de répondre à des questions issues de PDF d'ingénierie sans épuiser la limite hebdomadaire de tokens. Le processus : convertir les PDF d'ingénierie en Markdown, les placer dans un coffre Obsidian, utiliser un agent peu coûteux (Kimi K2.5) pour la recherche BM25 dans le coffre, et ne montrer à Claude que les passages pertinents au lieu des livres entiers. Cela a réduit le coût en tokens par question d'environ 50 000 à environ 5 000.

Le nouveau problème : l'agent avait parfois tort avec assurance — par exemple, disant « Marc Aurèle a écrit sur la mort dans le livre IX, section 3 » alors que le passage canonique se trouve dans le livre IV, section 5. Assez plausible pour nécessiter une vérification manuelle. Le développeur a donc construit un harnais d'évaluation utilisant Claude Sonnet 4.6 comme juge LLM, délibérément une famille de modèles différente de celle de l'agent Kimi pour éviter qu'il ne note sa propre production.

La grille initiale comportait quatre catégories, dont une à 0,7 « mince mais pas faux ». Lors de l'évaluation manuelle, l'évaluateur humain (le même développeur, en aveugle, un autre jour) a également regroupé tout ce qui était limite dans la catégorie 0,7. Le chiffre d'accord semblait respectable mais mesurait en réalité un biais partagé. Après quatre itérations de la grille, la version fonctionnelle a supprimé la catégorie intermédiaire et ajouté une catégorie à 0,9 pour un cas spécifique : « bonne réponse, mauvais passage ». Ce cas provoquait auparavant un faux positif (1,0 masquant un échec de récupération) ou un faux négatif (0,4 pénalisant une réponse correcte). La division a résolu le problème.

Avec la nouvelle grille, l'accord du juge avec l'humain sur 18 lignes est passé de 7/18 (39 %) à 17/18 (94 %). Mises en garde : 18 lignes est un petit échantillon, un seul évaluateur (fiabilité inter-évaluateur non établie), BM25 n'est pas nouveau (mais fonctionne bien pour les corpus techniques/littéraires où le chevauchement de vocabulaire entre requête et document est élevé). Un résultat négatif : la même technique de segmentation qui a amélioré un corpus de 33 points de pourcentage en a régressé un autre de 17 points de pourcentage sur la même évaluation — le harnais l'a détecté dès la première exécution.

Le compte rendu complet avec l'histoire des quatre itérations de la grille, la feuille de calcul de calibrage et la note sur le résultat négatif est sur Medium. L'auteur est curieux de savoir comment d'autres utilisent Claude Sonnet comme juge pour leurs installations RAG/agentiques, quelle grille ils ont adoptée, et comment ils gèrent la fiabilité inter-évaluateur avec un seul humain dans la boucle.

📖 Lire la source complète : r/ClaudeAI

Création d'un RAG agentic pour Obsidian avec Claude et d'un harnais d'évaluation pour détecter les hallucinations

👀 See Also

Lightpanda : navigateur headless open-source pour agents LLM avec serveur MCP natif et sortie en markdown

Claude Code charge paresseusement les schémas d'outils via ToolSearch pour économiser des tokens

Développeur Indie Dévoile 'Ideanator', un Outil en Ligne de Commande pour Structurer des Idées Vagues avec des LLMs Locaux

pxpipe : Réduisez l'utilisation des jetons Claude Code de 60 % en rendant le contexte sous forme d'images