Agentisches RAG für Obsidian mit Claude: Halluzinationen erkennen

Ein Entwickler auf r/ClaudeAI baute ein agentisches RAG-System über seinem Obsidian-Vault, damit Claude Fragen aus Ingenieurs-PDFs beantworten kann, ohne das wöchentliche Token-Limit zu sprengen. Der Workflow: PDFs in Markdown konvertieren, in ein Obsidian-Vault legen, einen günstigen Agenten (Kimi K2.5) für die BM25-Retrieval über das Vault verwenden, und Claude nur relevante Abschnitte anstelle ganzer Bücher sehen lassen. Dadurch sanken die Tokens pro Frage von ~50k auf ~5k.

Das neue Problem: Der Agent lag manchmal zuversichtlich falsch – z. B. sagte er: „Marcus Aurelius schrieb über den Tod in Buch IX, Abschnitt 3“, während die kanonische Passage in Buch IV, Abschnitt 5 stand. Plausibel genug, um manuelle Überprüfung zu erfordern. Also baute der Entwickler ein Evaluierungs-Tool mit Claude Sonnet 4.6 als LLM-Richter, bewusst eine andere Modellfamilie als den Kimi-Agenten, um nicht die eigenen Ergebnisse zu bewerten.

Die erste Rubrik hatte vier Kategorien, darunter eine 0,7 für „dünn, aber nicht falsch“. Bei der manuellen Benotung kollabierte der menschliche Bewerter (derselbe Entwickler, verbündet, an einem anderen Tag) ebenfalls alles Grenzwertige in 0,7. Die Übereinstimmungszahl sah respektabel aus, maß aber tatsächlich eine gemeinsame Verzerrung. Nach vier Rubrik-Iterationen entfernte die Arbeitsversion die mittlere Kategorie vollständig und fügte eine 0,9-Kategorie für einen spezifischen Fall hinzu: „richtige Antwort, falscher Abschnitt“. Dieser Fall verursachte zuvor entweder falsch-positive (1,0 überdeckte einen Retrieval-Fehler) oder falsch-negative (0,4 bestrafte eine richtige Antwort) Ergebnisse. Die Aufteilung löste das Problem.

Unter der neuen Rubrik stieg die Übereinstimmung zwischen Richter und Mensch bei 18 Zeilen von 7/18 (39 %) auf 17/18 (94 %). Einschränkungen: 18 Zeilen sind eine kleine Stichprobe, einzelner Bewerter (Inter-Bewerter-Reliabilität nicht ermittelt), BM25 ist nicht neu (funktioniert aber gut für technische/literarische Korpora, wo die Vokabelüberlappung zwischen Anfrage und Dokument hoch ist). Ein negatives Ergebnis: Dieselbe Chunking-Technik, die einen Korpus um 33 Prozentpunkte anhob, ließ einen anderen um 17 Prozentpunkte beim gleichen Evaluierungstest fallen – das Tool erkannte es im ersten Durchlauf.

Der vollständige Bericht mit der vierstufigen Rubrik-Geschichte, dem Kalibrierungsarbeitsblatt und dem negativen Ergebnis ist auf Medium. Der Autor ist neugierig, ob andere Claude Sonnet als Richter für ihre RAG-/Agenten-Setups verwenden, welche Rubrik sie gewählt haben und wie sie die Inter-Bewerter-Reliabilität mit einem einzelnen Menschen im Kreislauf handhaben.

📖 Read the full source: r/ClaudeAI

Aufbau eines agentischen RAG für Obsidian mit Claude und einer Evaluierungsumgebung zur Erkennung von Halluzinationen

👀 Siehe auch

Voxray-AI: Produktions-Backend in Go für Echtzeit-Sprachagenten-Pipelines

Erkundung von Clawe: Open-Source-Koordinationssystem für mehrere Agenten

Zwei Monate mit GitHub Spec-Kit und Claude Code: Was funktioniert, was nicht

OpenClaw-Fähigkeiten mit hoher Akzeptanz: Capability Evolver, WACLI, Composio und mehr