Lições de Implantação de Bots RAG em Indústrias Regulamentadas

Detalhes Principais da Implementação

Este estudo de caso aborda a implantação de um assistente de IA baseado em RAG para casos de uso de conformidade no local de trabalho australiano em canteiros de obras, instalações de cuidados com idosos e operações de mineração.

Lições Técnicas Aprendidas

A expansão de consultas importa mais que o tamanho dos fragmentos: Em vez de se preocupar excessivamente com o tamanho dos fragmentos (400 palavras? 512 tokens?), o desenvolvedor descobriu que gerar 4 formulações alternativas de cada consulta via Haiku, executar todas as 4 contra o ChromaDB e depois mesclar e remover duplicatas dos resultados melhorou significativamente a qualidade da recuperação. Isso foi particularmente eficaz para jargões específicos do domínio, onde os usuários formulam as coisas de maneira diferente dos autores dos documentos.
Impulso de fonte para documentos nomeados: Se a consulta de um usuário contém palavras que correspondem ao título de um documento indexado, inclua forçadamente fragmentos desse documento, independentemente da similaridade semântica. Por exemplo, "O que nossa política FIFO diz sobre voos R&R?" deve sempre extrair da política FIFO — não apenas fragmentos semanticamente semelhantes que por acaso mencionam voos.
Coloque seus prompts em camadas — não deixe os clientes quebrarem a Camada 1: Implementou um sistema de três camadas: regras principais de segurança (imutáveis), personalidade vertical (substituível por setor), instruções personalizadas do cliente (apenas aditivas). Os clientes não podem substituir a Camada 1 por meio de suas instruções personalizadas. Isso evitou ataques de "ignorar instruções anteriores" e que os clientes acidentalmente quebrassem seus próprios bots.
Embeddings locais são bons o suficiente: Usou sentence-transformers all-MiniLM-L6-v2 rodando localmente no ChromaDB sem API externa de embedding. Para perguntas e respostas de documentos em um domínio específico, ele tem desempenho próximo o suficiente ao ada-002 para que a economia de custos e latência valha a pena. A qualidade do LLM (Claude Haiku) está fazendo mais trabalho do que os embeddings de qualquer maneira.
Uma droplet por cliente: Tentou primeiro infraestrutura compartilhada, mas descobriu que a sobrecarga operacional de manter as coleções do ChromaDB isoladas, gerenciar chaves de API e evitar contaminação cruzada era pior do que simplesmente criar uma VM de US$ 6/mês por cliente. Cada cliente possui seu próprio armazenamento vetorial, e seus documentos nunca tocam a infraestrutura compartilhada.

O desenvolvedor disponibilizou o mecanismo RAG no GitHub para outros examinarem.

📖 Leia a fonte completa: r/LocalLLaMA

Lições Práticas da Implantação de Bots RAG em Indústrias Regulamentadas

Detalhes Principais da Implementação

Lições Técnicas Aprendidas

👀 See Also

Claude Opus 4.6 Corrige Jogo de 16 bits do Windows para Sistemas Modernos

Desenvolvedor constrói sistema complexo em 20 horas usando Claude AI sem escrever código

Memória Compartilhada Transforma Agentes de IA em Políticos de Escritório: Um Agente Escrevendo Avaliações de Desempenho

Agente OpenClaw automatiza pipeline completo de conteúdo de vídeo usando Remotion e Hyperframes