RAG Agentico com Claude e Obsidian: Estrutura para Detectar Alucinações

Um desenvolvedor no r/ClaudeAI construiu um sistema RAG agêntico sobre seu cofre Obsidian para permitir que o Claude respondesse perguntas de PDFs de engenharia sem estourar o limite semanal de tokens. O fluxo de trabalho: converter PDFs de engenharia para markdown, colocá-los em um cofre Obsidian, usar um agente barato (Kimi K2.5) para recuperação BM25 sobre o cofre, e fazer o Claude ver apenas partes relevantes em vez de livros inteiros. Isso reduziu o custo de token por pergunta de ~50k para ~5k.

O novo problema: o agente às vezes estava confiantemente errado — por exemplo, dizendo "Marco Aurélio escreveu sobre a morte no Livro IX, seção 3" quando a passagem canônica estava no Livro IV, seção 5. Plausível o suficiente para exigir verificação manual. Então o desenvolvedor construiu um harness de avaliação usando o Claude Sonnet 4.6 como juiz LLM, deliberadamente uma família de modelos diferente do agente Kimi para evitar avaliar sua própria saída.

A rubrica inicial tinha quatro categorias, incluindo um 0.7 "raso, mas não errado". Na avaliação manual, o avaliador humano (o mesmo desenvolvedor, às cegas, em um dia diferente) também colocou tudo que era borderline em 0.7. O número de concordância parecia respeitável, mas na verdade media um viés compartilhado. Após quatro iterações da rubrica, a versão funcional eliminou a categoria intermediária e adicionou uma categoria 0.9 para um caso específico: "resposta certa, pedaço errado". Esse caso anteriormente causava um falso positivo (1.0 mascarando uma falha de recuperação) ou falso negativo (0.4 punindo uma resposta correta). A divisão corrigiu isso.

Sob a nova rubrica, a concordância do juiz com o humano em 18 linhas foi de 7/18 (39%) para 17/18 (94%). Ressalvas: 18 linhas é uma amostra pequena, avaliador único (confiabilidade entre avaliadores não estabelecida), BM25 não é novidade (mas funciona bem para corpora técnicos/literários onde a sobreposição de vocabulário consulta/documento é alta). Um resultado negativo: a mesma técnica de divisão de pedaços que elevou um corpus em 33 pontos percentuais fez outro regredir 17pp na mesma avaliação — o harness detectou isso na primeira execução.

O artigo completo com a história das quatro iterações da rubrica, planilha de calibração e nota de resultado negativo está no Medium. O autor está curioso sobre outros usando Claude Sonnet como juiz para seus sistemas RAG/agentes, qual rubrica eles adotaram e como lidam com a confiabilidade entre avaliadores com um único humano no loop.

📖 Leia a fonte completa: r/ClaudeAI

Construindo um RAG Agentic para o Obsidian com Claude e uma Estrutura de Avaliação para Detectar Alucinações

👀 See Also

Orquestrador de fluxo de trabalho com integração CLI de IA para tarefas de sysadmin

Habilidade OpenClaw 'Dicas de Espera' Exibe Dicas de Aprendizado Durante os Tempos de Espera por Resposta da IA

Complemento OpenClaw Outlook Conecta Agente Local à Barra Lateral de Email

tmux-claude: Monitore Instâncias de Código Claude em Painéis Tmux