Construindo um RAG Agentic para o Obsidian com Claude e uma Estrutura de Avaliação para Detectar Alucinações

Um desenvolvedor no r/ClaudeAI construiu um sistema RAG agêntico sobre seu cofre Obsidian para permitir que o Claude respondesse perguntas de PDFs de engenharia sem estourar o limite semanal de tokens. O fluxo de trabalho: converter PDFs de engenharia para markdown, colocá-los em um cofre Obsidian, usar um agente barato (Kimi K2.5) para recuperação BM25 sobre o cofre, e fazer o Claude ver apenas partes relevantes em vez de livros inteiros. Isso reduziu o custo de token por pergunta de ~50k para ~5k.
O novo problema: o agente às vezes estava confiantemente errado — por exemplo, dizendo "Marco Aurélio escreveu sobre a morte no Livro IX, seção 3" quando a passagem canônica estava no Livro IV, seção 5. Plausível o suficiente para exigir verificação manual. Então o desenvolvedor construiu um harness de avaliação usando o Claude Sonnet 4.6 como juiz LLM, deliberadamente uma família de modelos diferente do agente Kimi para evitar avaliar sua própria saída.
A rubrica inicial tinha quatro categorias, incluindo um 0.7 "raso, mas não errado". Na avaliação manual, o avaliador humano (o mesmo desenvolvedor, às cegas, em um dia diferente) também colocou tudo que era borderline em 0.7. O número de concordância parecia respeitável, mas na verdade media um viés compartilhado. Após quatro iterações da rubrica, a versão funcional eliminou a categoria intermediária e adicionou uma categoria 0.9 para um caso específico: "resposta certa, pedaço errado". Esse caso anteriormente causava um falso positivo (1.0 mascarando uma falha de recuperação) ou falso negativo (0.4 punindo uma resposta correta). A divisão corrigiu isso.
Sob a nova rubrica, a concordância do juiz com o humano em 18 linhas foi de 7/18 (39%) para 17/18 (94%). Ressalvas: 18 linhas é uma amostra pequena, avaliador único (confiabilidade entre avaliadores não estabelecida), BM25 não é novidade (mas funciona bem para corpora técnicos/literários onde a sobreposição de vocabulário consulta/documento é alta). Um resultado negativo: a mesma técnica de divisão de pedaços que elevou um corpus em 33 pontos percentuais fez outro regredir 17pp na mesma avaliação — o harness detectou isso na primeira execução.
O artigo completo com a história das quatro iterações da rubrica, planilha de calibração e nota de resultado negativo está no Medium. O autor está curioso sobre outros usando Claude Sonnet como juiz para seus sistemas RAG/agentes, qual rubrica eles adotaram e como lidam com a confiabilidade entre avaliadores com um único humano no loop.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Memento v1.0: Servidor MCP de Memória Persistente para Claude Code com 17 Ferramentas
O Memento v1.0 é um servidor MCP de memória persistente para o Claude Code que inclui 17 ferramentas, busca híbrida, detecção de contradições e um gráfico visual de memória. Ele roda localmente sem dependências de nuvem e suporta múltiplos IDEs, incluindo Claude Code, Cursor, Windsurf e OpenCode.

BrightBean Studio: Plataforma de gerenciamento de mídia social de código aberto desenvolvida com agentes de IA
BrightBean Studio é uma plataforma de gerenciamento de mídias sociais de código aberto e auto-hospedável que suporta mais de 10 plataformas com integrações diretas de API de primeira parte. Foi construída em 3 semanas usando Claude e Codex.

ClawProxy: Proxy de Roteamento de IA Auto-Hospedado com Painel de Controle
ClawProxy é um proxy de código aberto e auto-hospedado que centraliza o gerenciamento de múltiplas chaves de API e modelos de IA. Ele fornece um endpoint unificado, rotação inteligente de chaves, fallback de provedores e registro em tempo real através de um painel React.

Brunnfeld Agentic World: Simulação de Economia Medieval Multiagente Sem Prompts Comportamentais
Uma simulação em TypeScript onde 20 agentes de LLM negociam autonomamente em uma economia de vila medieval sem instruções comportamentais, objetivos ou estratégias de negociação. Os agentes recebem percepções de ~200 tokens a cada ciclo e interagem por meio de um mecanismo determinístico que lida com física, receitas e mecânicas de mercado.