Obsidian用エージェント型RAG構築と評価ハーネス

r/ClaudeAIの開発者が、Obsidian Vault上にエージェンティックRAGシステムを構築し、週間トークン制限を超えずにClaudeが工学PDFの質問に回答できるようにしました。ワークフローは次の通り：工学PDFをマークダウンに変換し、Obsidian Vaultに格納。安価なエージェント（Kimi K2.5）を使用してVaultからBM25検索を行い、Claudeには書籍全体ではなく関連チャンクのみを渡します。これにより、質問あたりのトークンコストが約50kから5kに削減されました。

新たな問題：エージェントが時折、自信満々に誤った回答をすることがありました。例えば「マルクス・アウレリウスは第9巻第3節で死について書いた」と言う一方、正規の箇所は第4巻第5節であるなど。一見もっともらしく、手動検証が必要でした。そこで開発者は、Claude Sonnet 4.6をLLM判定役とする評価ハーネスを構築しました。意図的にKimiエージェントとは異なるモデルファミリーを選び、自己評価を避けています。

初期のルーブリックには0.7の「薄いが間違いではない」を含む4つのバケットがありました。手動評価では、人間の評価者（同一開発者、ブラインド、別の日）も境界例をすべて0.7にまとめてしまいました。一致率は一見良好に見えましたが、実際には共通のバイアスを測定していたに過ぎません。4回のルーブリック反復の後、実用的なバージョンでは中間バケットを完全に廃止し、特定のケース「正解だがチャンクが違う」向けに0.9のバケットを追加しました。このケースは以前、偽陽性（1.0で検索ミスを隠蔽）または偽陰性（0.4で正答を罰する）を引き起こしていました。この分割により問題が解決しました。

新しいルーブリックでは、18行のデータで判定者と人間の一致率が7/18（39%）から17/18（94%）に向上しました。注意点：18行はサンプルサイズが小さく、評価者は単独（評価者間信頼性は確立されていない）、BM25は目新しいものではないが（クエリと文書の語彙重複が多い技術・文学コーパスでは有効）。否定的な結果：同一のチャンク手法が一方のコーパスで33ポイント向上した一方、もう一方のコーパスでは17ポイント低下しました——評価ハーネスは初回実行でこれを検出しました。

4回のルーブリック改良の経緯、調整ワークシート、否定的結果を含む全文はMediumに掲載されています。著者は、自身のRAG/エージェント設定でClaude Sonnetを判定役として使用している他の方々、最終的に採用したルーブリック、単独の人間評価者がいる場合の評価者間信頼性の扱いについて関心を持っています。

📖 Read the full source: r/ClaudeAI

Claudeを用いたObsidian用エージェント型RAGの構築と幻覚検出のための評価ハーネス

👀 See Also

ソースコード: Claude向けに大規模なJava/Springモノレポを圧縮するオープンソースのCLI

医療研究ワークフロー向け9つの無料Claudeコードスキル

certctl: AIエージェント自動化のための78のAPIエンドポイントを備えたセルフホスト型証明書ライフサイクルプラットフォーム

VoidLLM：OllamaとvLLMのためのゼロ知識プロキシ、チームアクセス制御付き