Aufbau eines agentischen RAG für Obsidian mit Claude und einer Evaluierungsumgebung zur Erkennung von Halluzinationen

Ein Entwickler auf r/ClaudeAI baute ein agentisches RAG-System über seinem Obsidian-Vault, damit Claude Fragen aus Ingenieurs-PDFs beantworten kann, ohne das wöchentliche Token-Limit zu sprengen. Der Workflow: PDFs in Markdown konvertieren, in ein Obsidian-Vault legen, einen günstigen Agenten (Kimi K2.5) für die BM25-Retrieval über das Vault verwenden, und Claude nur relevante Abschnitte anstelle ganzer Bücher sehen lassen. Dadurch sanken die Tokens pro Frage von ~50k auf ~5k.
Das neue Problem: Der Agent lag manchmal zuversichtlich falsch – z. B. sagte er: „Marcus Aurelius schrieb über den Tod in Buch IX, Abschnitt 3“, während die kanonische Passage in Buch IV, Abschnitt 5 stand. Plausibel genug, um manuelle Überprüfung zu erfordern. Also baute der Entwickler ein Evaluierungs-Tool mit Claude Sonnet 4.6 als LLM-Richter, bewusst eine andere Modellfamilie als den Kimi-Agenten, um nicht die eigenen Ergebnisse zu bewerten.
Die erste Rubrik hatte vier Kategorien, darunter eine 0,7 für „dünn, aber nicht falsch“. Bei der manuellen Benotung kollabierte der menschliche Bewerter (derselbe Entwickler, verbündet, an einem anderen Tag) ebenfalls alles Grenzwertige in 0,7. Die Übereinstimmungszahl sah respektabel aus, maß aber tatsächlich eine gemeinsame Verzerrung. Nach vier Rubrik-Iterationen entfernte die Arbeitsversion die mittlere Kategorie vollständig und fügte eine 0,9-Kategorie für einen spezifischen Fall hinzu: „richtige Antwort, falscher Abschnitt“. Dieser Fall verursachte zuvor entweder falsch-positive (1,0 überdeckte einen Retrieval-Fehler) oder falsch-negative (0,4 bestrafte eine richtige Antwort) Ergebnisse. Die Aufteilung löste das Problem.
Unter der neuen Rubrik stieg die Übereinstimmung zwischen Richter und Mensch bei 18 Zeilen von 7/18 (39 %) auf 17/18 (94 %). Einschränkungen: 18 Zeilen sind eine kleine Stichprobe, einzelner Bewerter (Inter-Bewerter-Reliabilität nicht ermittelt), BM25 ist nicht neu (funktioniert aber gut für technische/literarische Korpora, wo die Vokabelüberlappung zwischen Anfrage und Dokument hoch ist). Ein negatives Ergebnis: Dieselbe Chunking-Technik, die einen Korpus um 33 Prozentpunkte anhob, ließ einen anderen um 17 Prozentpunkte beim gleichen Evaluierungstest fallen – das Tool erkannte es im ersten Durchlauf.
Der vollständige Bericht mit der vierstufigen Rubrik-Geschichte, dem Kalibrierungsarbeitsblatt und dem negativen Ergebnis ist auf Medium. Der Autor ist neugierig, ob andere Claude Sonnet als Richter für ihre RAG-/Agenten-Setups verwenden, welche Rubrik sie gewählt haben und wie sie die Inter-Bewerter-Reliabilität mit einem einzelnen Menschen im Kreislauf handhaben.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

FixAI Dev: Ein Verbraucherrechts-Spiel mit Claude Haiku und strengen JSON-Verträgen
Ein Entwickler hat ein Browserspiel erstellt, in dem Claude Haiku als Unternehmens-KI agiert, die Verbraucheranfragen fälschlicherweise ablehnt; Spieler argumentieren mit echten Verbraucherschutzgesetzen in 37 Fällen aus der EU, den USA, dem Vereinigten Königreich und Australien. Die Architektur nutzt Haiku nur für die Sprachverarbeitung, mit serverseitiger Spiel-Logik und strengen JSON-Verträgen zwischen den Komponenten.

apple-music-play OpenClaw-Skill auf ClawHub veröffentlicht für Apple Music Suche und Wiedergabe
Die auf ClawHub veröffentlichte apple-music-play-Fähigkeit ermöglicht die Suche im Online-Katalog von Apple Music und das direkte Abspielen von Titeln in der macOS Music-App, ohne dass sich die Songs in Ihrer lokalen Bibliothek befinden müssen.

Mind Protocol: Open-Source-System verleiht Claude persistenten Speicher und Echtzeit-Biometrie-Integration
Mind Protocol ist ein Open-Source-System, in dem Claude kontinuierlich als autonomer Begleiter läuft, mit dauerhaftem Speicher über alle Sitzungen hinweg und Echtzeit-Daten von Garmin-Uhren, die in jedes Gespräch eingespielt werden. Die Architektur nutzt Claude Code als Kern-Engine mit einem Orchestrator, der parallele Sitzungen startet und den Lebenszyklus verwaltet.

Einzelaufruf-MCP-Pipeline reduziert den Claude-Code-Token-Verbrauch um 74 %
Ein Entwickler hat einen Kontext-Engine-MCP-Server erstellt, der Claude Code einen Abhängigkeitsgraphen von Codebasen bereitstellt und so die Token-Nutzung zunächst um 65 % reduziert. Eine neue Single-Call-Pipeline senkt die Token weiter um 74 %, indem sie mehrere Roundtrips eliminiert und Ergebnisse serverseitig dedupliziert.