Création d'un RAG agentic pour Obsidian avec Claude et d'un harnais d'évaluation pour détecter les hallucinations

Un développeur sur r/ClaudeAI a construit un système RAG agentique sur son coffre Obsidian pour permettre à Claude de répondre à des questions issues de PDF d'ingénierie sans épuiser la limite hebdomadaire de tokens. Le processus : convertir les PDF d'ingénierie en Markdown, les placer dans un coffre Obsidian, utiliser un agent peu coûteux (Kimi K2.5) pour la recherche BM25 dans le coffre, et ne montrer à Claude que les passages pertinents au lieu des livres entiers. Cela a réduit le coût en tokens par question d'environ 50 000 à environ 5 000.
Le nouveau problème : l'agent avait parfois tort avec assurance — par exemple, disant « Marc Aurèle a écrit sur la mort dans le livre IX, section 3 » alors que le passage canonique se trouve dans le livre IV, section 5. Assez plausible pour nécessiter une vérification manuelle. Le développeur a donc construit un harnais d'évaluation utilisant Claude Sonnet 4.6 comme juge LLM, délibérément une famille de modèles différente de celle de l'agent Kimi pour éviter qu'il ne note sa propre production.
La grille initiale comportait quatre catégories, dont une à 0,7 « mince mais pas faux ». Lors de l'évaluation manuelle, l'évaluateur humain (le même développeur, en aveugle, un autre jour) a également regroupé tout ce qui était limite dans la catégorie 0,7. Le chiffre d'accord semblait respectable mais mesurait en réalité un biais partagé. Après quatre itérations de la grille, la version fonctionnelle a supprimé la catégorie intermédiaire et ajouté une catégorie à 0,9 pour un cas spécifique : « bonne réponse, mauvais passage ». Ce cas provoquait auparavant un faux positif (1,0 masquant un échec de récupération) ou un faux négatif (0,4 pénalisant une réponse correcte). La division a résolu le problème.
Avec la nouvelle grille, l'accord du juge avec l'humain sur 18 lignes est passé de 7/18 (39 %) à 17/18 (94 %). Mises en garde : 18 lignes est un petit échantillon, un seul évaluateur (fiabilité inter-évaluateur non établie), BM25 n'est pas nouveau (mais fonctionne bien pour les corpus techniques/littéraires où le chevauchement de vocabulaire entre requête et document est élevé). Un résultat négatif : la même technique de segmentation qui a amélioré un corpus de 33 points de pourcentage en a régressé un autre de 17 points de pourcentage sur la même évaluation — le harnais l'a détecté dès la première exécution.
Le compte rendu complet avec l'histoire des quatre itérations de la grille, la feuille de calcul de calibrage et la note sur le résultat négatif est sur Medium. L'auteur est curieux de savoir comment d'autres utilisent Claude Sonnet comme juge pour leurs installations RAG/agentiques, quelle grille ils ont adoptée, et comment ils gèrent la fiabilité inter-évaluateur avec un seul humain dans la boucle.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

GrapeRoot : L'outil open-source réduit l'utilisation de tokens Claude Code de 40 à 80 %
GrapeRoot est un serveur MCP local gratuit et open source qui se situe entre votre base de code et Claude Code, réduisant l'utilisation de tokens de 40 à 80 % en suivant ce que le modèle a déjà vu et en envoyant uniquement les modifications de code pertinentes.

SIDJUA v0.9.7 : Intelligence Artificielle Multi-Agents Open Source avec Application Pré-Action de la Gouvernance
SIDJUA v0.9.7 est un framework d'IA multi-agents open source et auto-hébergé qui applique des règles de gouvernance avant que les agents n'agissent, bloquant les actions non autorisées comme les dépassements de budget ou les violations de périmètre. Il prend en charge plusieurs fournisseurs de LLM, fonctionne avec 4 Go de RAM et inclut une interface graphique de bureau construite avec Tauri v2.

Memento v1.0 : Serveur MCP à Mémoire Persistante pour Claude Code avec 17 Outils
Memento v1.0 est un serveur MCP de mémoire persistante pour Claude Code qui propose 17 outils, une recherche hybride, une détection de contradictions et un graphe de mémoire visuel. Il s'exécute localement sans dépendances cloud et prend en charge plusieurs IDE, dont Claude Code, Cursor, Windsurf et OpenCode.

Serveur de Compétence OpenClaw pour l'Analyse et le Trading du Marché Indien
Un terminal de trading open-source pour les marchés indiens a été intégré en tant que serveur de compétences OpenClaw, permettant aux agents de récupérer des données de marché et d'exécuter des analyses multi-agents via HTTP. Le système fournit des plans de trading structurés avec des prix d'entrée, des stop-loss et des objectifs pour trois profils de risque.