Arquitectura de base de conocimiento de 4 niveles para IA

Un desarrollador en r/openclaw detalló una arquitectura para una base de conocimiento estructurada diseñada para convertir agentes LLM genéricos en expertos de dominio al proporcionar contexto específico sobre herramientas, flujos de trabajo y políticas.

El problema con los enfoques RAG comunes

La fuente identifica varios problemas con las implementaciones RAG típicas: sin clasificación de consultas (cada pregunta obtiene el mismo pipeline de recuperación), sin niveles (documentos de gobernanza tratados igual que publicaciones de blog), sin presupuesto (ventana de contexto del agente llena de fragmentos irrelevantes) y sin autocuración (documentos obsoletos/rotos permanecen rotos para siempre).

Un pipeline de KB de 4 niveles

El sistema utiliza cuatro niveles distintos:

Nivel de gobernanza — Siempre cargado. Contiene identidad del agente, políticas y reglas como contexto no negociable.
Nivel de agente — Documentación por agente. Por ejemplo, un agente de voz llamado Lucy obtiene documentación de manejo de llamadas, mientras que un agente llamado Binky (CRO) obtiene documentación de conversión.
Nivel relevante — Recuperación dinámica por consulta con coincidencia de título/cuerpo, limitada a un máximo de 5 documentos y un presupuesto de 12K caracteres por documento.
Nivel wiki — Más de 200 artículos de referencia buscables a través de un puente de sistema de archivos, que cubren historia de IA, definiciones de herramientas, patrones de flujo de trabajo y comparaciones de plataformas.

Clasificación de consultas como arma secreta

Antes de que ocurra cualquier recuperación, un clasificador basado en regex determina cuánto contexto necesita una pregunta:

DIRECTO — Para tareas como "Resumir este texto" donde no se necesita KB.
SOLO_HABILIDAD — Para tareas como "Escríbeme un tweet" donde la documentación de habilidad del agente es suficiente.
CACHÉ_CALIENTE — Para preguntas como "¿Quién maneja la facturación?" respondidas desde documentos de gobernanza y agente en caché de memoria.
RAG_COMPLETO — Para consultas complejas como "Comparar precios de n8n vs Zapier" que requieren búsqueda vectorial completa y puente wiki.

Solo esta clasificación redujo los costos de tokens en aproximadamente un 40% porque la mayoría de las preguntas no necesitan RAG completo.

Estructura y organización de la KB

Cada uno de los más de 200 artículos sigue un formato consistente: un título claro con alcance, contenido práctico (tablas, ejemplos de código, marcos de decisión), 2+ fuentes citadas con URL reales, 5 descripciones de referencia de imágenes y 2 referencias de video.

El contenido está organizado en dominios específicos:

Fundamentos de IA/ML (18 artículos) — historia, transformadores, incrustaciones, agentes
Herramientas (16 artículos) — definiciones, seguridad, taxonomía, manejo de errores, auditoría
Flujos de trabajo (18 artículos) — tipos, plataformas, análisis de costos, patrones HIL
Generación de imágenes (115 archivos) — 16 proveedores, comparaciones, marcos de prompts
Generación de video (109 archivos) — tratamientos, pipelines, guías de plataformas
Soporte (60 artículos) — contenido del centro de ayuda al cliente

Sistema de autocuración

La arquitectura incluye un sistema de evaluación que puntúa la salud de la KB en una escala de 0-100 y aborda automáticamente los problemas: las incrustaciones faltantes activan la reincrustación, el contenido obsoleto se marca para actualización y las referencias rotas se reparan o eliminan. La puntuación de salud mejoró de 71 a 89 después de la primera pasada de curación.

Resultados y conclusiones clave

Antes de la implementación de la KB, los agentes alucinaban definiciones de herramientas, inventaban precios y daban consejos genéricos de flujo de trabajo. Después de la implementación, los agentes citan documentos específicos, proporcionan comparaciones precisas de plataformas con precios reales y saben cuándo decir "No tengo datos actuales sobre eso".

Conclusiones clave de la implementación:

Clasifica antes de recuperar — no todas las preguntas necesitan RAG.
Presupuesta tu ventana de contexto — 60K caracteres en total, con un límite estricto por documento.
La estructura vence al volumen — 200 artículos bien organizados son mejores que 10,000 fragmentos aleatorios.
La autocuración no es opcional — las bases de conocimiento se deterioran, así que construye monitoreo desde el primer día.
Escribe para agentes, no para humanos — prioriza tablas sobre párrafos, marcos de decisión sobre prosa y ejemplos concretos sobre explicaciones abstractas.

📖 Read the full source: r/openclaw