Una arquitectura de base de conocimiento de 4 niveles para mejorar la precisión del agente de IA.

Un desarrollador en r/openclaw detalló una arquitectura para una base de conocimiento estructurada diseñada para convertir agentes LLM genéricos en expertos de dominio al proporcionar contexto específico sobre herramientas, flujos de trabajo y políticas.
El problema con los enfoques RAG comunes
La fuente identifica varios problemas con las implementaciones RAG típicas: sin clasificación de consultas (cada pregunta obtiene el mismo pipeline de recuperación), sin niveles (documentos de gobernanza tratados igual que publicaciones de blog), sin presupuesto (ventana de contexto del agente llena de fragmentos irrelevantes) y sin autocuración (documentos obsoletos/rotos permanecen rotos para siempre).
Un pipeline de KB de 4 niveles
El sistema utiliza cuatro niveles distintos:
- Nivel de gobernanza — Siempre cargado. Contiene identidad del agente, políticas y reglas como contexto no negociable.
- Nivel de agente — Documentación por agente. Por ejemplo, un agente de voz llamado Lucy obtiene documentación de manejo de llamadas, mientras que un agente llamado Binky (CRO) obtiene documentación de conversión.
- Nivel relevante — Recuperación dinámica por consulta con coincidencia de título/cuerpo, limitada a un máximo de 5 documentos y un presupuesto de 12K caracteres por documento.
- Nivel wiki — Más de 200 artículos de referencia buscables a través de un puente de sistema de archivos, que cubren historia de IA, definiciones de herramientas, patrones de flujo de trabajo y comparaciones de plataformas.
Clasificación de consultas como arma secreta
Antes de que ocurra cualquier recuperación, un clasificador basado en regex determina cuánto contexto necesita una pregunta:
- DIRECTO — Para tareas como "Resumir este texto" donde no se necesita KB.
- SOLO_HABILIDAD — Para tareas como "Escríbeme un tweet" donde la documentación de habilidad del agente es suficiente.
- CACHÉ_CALIENTE — Para preguntas como "¿Quién maneja la facturación?" respondidas desde documentos de gobernanza y agente en caché de memoria.
- RAG_COMPLETO — Para consultas complejas como "Comparar precios de n8n vs Zapier" que requieren búsqueda vectorial completa y puente wiki.
Solo esta clasificación redujo los costos de tokens en aproximadamente un 40% porque la mayoría de las preguntas no necesitan RAG completo.
Estructura y organización de la KB
Cada uno de los más de 200 artículos sigue un formato consistente: un título claro con alcance, contenido práctico (tablas, ejemplos de código, marcos de decisión), 2+ fuentes citadas con URL reales, 5 descripciones de referencia de imágenes y 2 referencias de video.
El contenido está organizado en dominios específicos:
- Fundamentos de IA/ML (18 artículos) — historia, transformadores, incrustaciones, agentes
- Herramientas (16 artículos) — definiciones, seguridad, taxonomía, manejo de errores, auditoría
- Flujos de trabajo (18 artículos) — tipos, plataformas, análisis de costos, patrones HIL
- Generación de imágenes (115 archivos) — 16 proveedores, comparaciones, marcos de prompts
- Generación de video (109 archivos) — tratamientos, pipelines, guías de plataformas
- Soporte (60 artículos) — contenido del centro de ayuda al cliente
Sistema de autocuración
La arquitectura incluye un sistema de evaluación que puntúa la salud de la KB en una escala de 0-100 y aborda automáticamente los problemas: las incrustaciones faltantes activan la reincrustación, el contenido obsoleto se marca para actualización y las referencias rotas se reparan o eliminan. La puntuación de salud mejoró de 71 a 89 después de la primera pasada de curación.
Resultados y conclusiones clave
Antes de la implementación de la KB, los agentes alucinaban definiciones de herramientas, inventaban precios y daban consejos genéricos de flujo de trabajo. Después de la implementación, los agentes citan documentos específicos, proporcionan comparaciones precisas de plataformas con precios reales y saben cuándo decir "No tengo datos actuales sobre eso".
Conclusiones clave de la implementación:
- Clasifica antes de recuperar — no todas las preguntas necesitan RAG.
- Presupuesta tu ventana de contexto — 60K caracteres en total, con un límite estricto por documento.
- La estructura vence al volumen — 200 artículos bien organizados son mejores que 10,000 fragmentos aleatorios.
- La autocuración no es opcional — las bases de conocimiento se deterioran, así que construye monitoreo desde el primer día.
- Escribe para agentes, no para humanos — prioriza tablas sobre párrafos, marcos de decisión sobre prosa y ejemplos concretos sobre explicaciones abstractas.
📖 Read the full source: r/openclaw
👀 Ver también

Heren Godot MCP: Daemon WebSocket Persistente Reduce la Latencia de Interacción AI–Godot a ~20ms
Heren es un nuevo servidor MCP para Godot que mantiene un demonio WebSocket ligero activo, logrando operaciones de ~20ms en lugar de esperar arranques completos del motor. Proporciona 15 herramientas para gestión de escenas, depuración, capturas de pantalla aceleradas por GPU y apagado automático tras 3 minutos de inactividad.

Membase: Capa de Memoria Externa para Asistentes de IA en Herramientas
Membase es una capa de memoria externa que extrae y almacena el contexto de conversación en un grafo de conocimiento, luego inyecta recuerdos relevantes en nuevos chats en Claude, ChatGPT, Cursor, Gemini y otras herramientas de IA. Actualmente está en beta privada con todas las funciones gratuitas.

El Marco de Scaffold Aborda los Problemas de Memoria de Código y Flujo de Trabajo de Claude
Scaffold es un marco de trabajo de 17 habilidades para Claude Code que proporciona memoria persistente, aplicación de decisiones y puertas de flujo de trabajo. Utiliza un sistema de enrutamiento de modelos de 3 niveles para ahorrar tokens y se puede instalar a través del menú de complementos de Claude Code.

Savant Commander 48B: Un modelo personalizado Qwen 3 de Mezcla de Expertos con 12 modelos destilados
Savant Commander 48B es un modelo personalizado Qwen 3 de Mezcla de Expertos con enrutamiento codificado manualmente que combina 12 modelos destilados de proveedores como Claude, Gemini, OpenAI y Deepseek. Cuenta con una longitud de contexto de 256K y permite la activación controlada por prompt de modelos destilados específicos.