Construcción de un RAG agéntico para Obsidian con Claude y un arnés de evaluación para detectar alucinaciones

✍️ OpenClawRadar📅 Publicado: 16 de mayo de 2026🔗 Source
Construcción de un RAG agéntico para Obsidian con Claude y un arnés de evaluación para detectar alucinaciones
Ad

Un desarrollador en r/ClaudeAI construyó un sistema RAG agéntico sobre su bóveda de Obsidian para que Claude respondiera preguntas de PDFs de ingeniería sin agotar el límite semanal de tokens. El flujo de trabajo: convertir PDFs de ingeniería a markdown, colocarlos en una bóveda de Obsidian, usar un agente barato (Kimi K2.5) para la recuperación BM25 sobre la bóveda, y que Claude solo vea fragmentos relevantes en lugar de libros completos. Esto redujo el costo de tokens por pregunta de ~50k a ~5k.

El nuevo problema: el agente a veces se equivocaba con seguridad — por ejemplo, diciendo "Marco Aurelio escribió sobre la muerte en el Libro IX, sección 3" cuando el pasaje canónico estaba en el Libro IV, sección 5. Lo suficientemente plausible como para requerir verificación manual. Así que el desarrollador construyó un arnés de evaluación usando Claude Sonnet 4.6 como juez LLM, deliberadamente una familia de modelos diferente del agente Kimi para evitar calificar su propia salida.

La rúbrica inicial tenía cuatro categorías, incluyendo un 0.7 "débil pero no incorrecto". Al calificar manualmente, el evaluador humano (el mismo desarrollador, ciego, en un día diferente) también colapsó todo lo límite en 0.7. El número de concordancia parecía respetable, pero en realidad medía un sesgo compartido. Después de cuatro iteraciones de la rúbrica, la versión funcional eliminó por completo la categoría intermedia y añadió una categoría 0.9 para un caso específico: "respuesta correcta, fragmento incorrecto". Este caso antes causaba un falso positivo (1.0 encubriendo una falla de recuperación) o un falso negativo (0.4 castigando una respuesta correcta). La división lo solucionó.

Ad

Bajo la nueva rúbrica, la concordancia del juez con el humano en 18 filas pasó de 7/18 (39%) a 17/18 (94%). Salvedades: 18 filas son una muestra pequeña, un solo evaluador (confiabilidad entre evaluadores no establecida), BM25 no es novedoso (pero funciona bien para corpus técnicos/literarios donde la superposición de vocabulario entre consulta y documento es alta). Un resultado negativo: la misma técnica de fragmentación que elevó un corpus en 33pp hizo retroceder otro en 17pp en la misma evaluación — el arnés lo detectó en la primera ejecución.

El artículo completo con la historia de las cuatro iteraciones de la rúbrica, la hoja de trabajo de calibración y la nota sobre el resultado negativo está en Medium. El autor tiene curiosidad sobre otros que usen Claude Sonnet como juez para sus configuraciones RAG/agente, qué rúbrica adoptaron y cómo manejan la confiabilidad entre evaluadores con un solo humano en el ciclo.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

GoModel: Una Puerta de Enlace de IA Ligera y de Código Abierto Escrita en Go
Herramientas

GoModel: Una Puerta de Enlace de IA Ligera y de Código Abierto Escrita en Go

GoModel es una puerta de enlace de IA de código abierto que proporciona una API unificada compatible con OpenAI para múltiples proveedores, incluyendo OpenAI, Anthropic, Gemini, Groq, xAI y Ollama. Cuenta con una imagen Docker de 17 MB, 44 veces más pequeña que LiteLLM, con configuración prioritaria por variables de entorno y observabilidad integrada.

OpenClawRadar
free-claude-code añade soporte para GLM-5 a través de NVIDIA NIM y se expande a OpenRouter y Discord.
Herramientas

free-claude-code añade soporte para GLM-5 a través de NVIDIA NIM y se expande a OpenRouter y Discord.

free-claude-code ahora admite GLM-5 a través del nivel gratuito de NVIDIA NIM (40 solicitudes/min) y agrega integración con OpenRouter, soporte para bot de Discord y compatibilidad con el proveedor local LMStudio. La herramienta convierte las solicitudes de API de Anthropic de Claude Code para funcionar con backends de modelos alternativos.

OpenClawRadar
Ollama Actualización Agrega Soporte de OpenClaw para el Modelo en la Nube Kimi k2.5
Herramientas

Ollama Actualización Agrega Soporte de OpenClaw para el Modelo en la Nube Kimi k2.5

Ollama ha lanzado una actualización que integra soporte OpenClaw para modelos en la nube, incluyendo acceso gratuito al modelo Kimi k2.5 con funcionalidad de búsqueda web, ejecutándose en centros de datos de NVIDIA.

OpenClawRadar
WebClaw: Servidor MCP de Código Abierto para Extracción Web con Claude
Herramientas

WebClaw: Servidor MCP de Código Abierto para Extracción Web con Claude

WebClaw es un servidor MCP de código abierto construido con Claude Code que proporciona herramientas de extracción web para Claude Desktop y Claude Code, resolviendo las limitaciones del web_fetch incorporado de Claude mediante huellas digitales TLS y optimización de contenido.

OpenClawRadar