Implementación de Bots RAG: Lecciones para Industrias Reguladas

Detalles Clave de Implementación

Este estudio de caso cubre la implementación de un asistente de IA potenciado por RAG para casos de uso de cumplimiento normativo en lugares de trabajo australianos en sitios de construcción, instalaciones de cuidado de ancianos y operaciones mineras.

Lecciones Técnicas Aprendidas

La expansión de consultas importa más que el tamaño de los fragmentos: En lugar de obsesionarse con el tamaño de los fragmentos (¿400 palabras? ¿512 tokens?), el desarrollador descubrió que generar 4 formulaciones alternativas de cada consulta mediante Haiku, ejecutar las 4 contra ChromaDB y luego fusionar y eliminar duplicados de los resultados mejoró significativamente la calidad de la recuperación. Esto fue particularmente efectivo para la jerga específica del dominio donde los usuarios formulan las cosas de manera diferente a los autores de los documentos.
Impulso de fuente para documentos nombrados: Si la consulta de un usuario contiene palabras que coinciden con el título de un documento indexado, incluir forzosamente fragmentos de ese documento independientemente de la similitud semántica. Por ejemplo, "¿Qué dice nuestra política FIFO sobre los vuelos R&R?" siempre debe extraer de la política FIFO, no solo de fragmentos semánticamente similares que mencionen vuelos.
Capas tus prompts — no dejes que los clientes rompan la Capa 1: Implementó un sistema de tres capas: reglas básicas de seguridad/protección (inmutables), personalidad vertical (intercambiable por industria), instrucciones personalizadas del cliente (solo aditivas). Los clientes no pueden anular la Capa 1 mediante sus instrucciones personalizadas. Esto evitó ataques de "ignorar instrucciones anteriores" y que los clientes desbloquearan accidentalmente sus propios bots.
Los embeddings locales son suficientemente buenos: Utilizó sentence-transformers all-MiniLM-L6-v2 ejecutándose localmente en ChromaDB sin API externa de embeddings. Para preguntas y respuestas sobre documentos en un dominio específico, su rendimiento es lo suficientemente cercano a ada-002 como para que el ahorro de costos y latencia valga la pena. La calidad del LLM (Claude Haiku) está haciendo más trabajo que los embeddings de todos modos.
Una gota por cliente: Probó primero la infraestructura compartida pero descubrió que la sobrecarga operativa de mantener las colecciones de ChromaDB aisladas, gestionar claves API y prevenir la contaminación cruzada era peor que simplemente crear una VM de $6/mes por cliente. Cada cliente posee su almacén de vectores y sus documentos nunca tocan la infraestructura compartida.

El desarrollador ha hecho disponible el motor RAG en GitHub para que otros lo examinen.

📖 Leer la fuente completa: r/LocalLLaMA

Lecciones Prácticas de la Implementación de Bots RAG en Industrias Reguladas

Detalles Clave de Implementación

Lecciones Técnicas Aprendidas

👀 Ver también

La Fuerza Subestimada de Claude Code: Navegación de Base de Código sobre Generación de Código

El Juego de Viaje en el Tiempo de Claude Evoluciona desde un Prompt a un Sistema Completo Desplegado

Casos de uso prácticos de OpenClaw para usuarios no técnicos

La efectividad de Claude Haiku 4.5 para corregir errores depende en gran medida de la calidad del mensaje, según muestran pruebas de usuarios.