Lições Práticas da Implantação de Bots RAG em Indústrias Regulamentadas

✍️ OpenClawRadar📅 Publicado: March 29, 2026🔗 Source
Lições Práticas da Implantação de Bots RAG em Indústrias Regulamentadas
Ad

Detalhes Principais da Implementação

Este estudo de caso aborda a implantação de um assistente de IA baseado em RAG para casos de uso de conformidade no local de trabalho australiano em canteiros de obras, instalações de cuidados com idosos e operações de mineração.

Ad

Lições Técnicas Aprendidas

  • A expansão de consultas importa mais que o tamanho dos fragmentos: Em vez de se preocupar excessivamente com o tamanho dos fragmentos (400 palavras? 512 tokens?), o desenvolvedor descobriu que gerar 4 formulações alternativas de cada consulta via Haiku, executar todas as 4 contra o ChromaDB e depois mesclar e remover duplicatas dos resultados melhorou significativamente a qualidade da recuperação. Isso foi particularmente eficaz para jargões específicos do domínio, onde os usuários formulam as coisas de maneira diferente dos autores dos documentos.
  • Impulso de fonte para documentos nomeados: Se a consulta de um usuário contém palavras que correspondem ao título de um documento indexado, inclua forçadamente fragmentos desse documento, independentemente da similaridade semântica. Por exemplo, "O que nossa política FIFO diz sobre voos R&R?" deve sempre extrair da política FIFO — não apenas fragmentos semanticamente semelhantes que por acaso mencionam voos.
  • Coloque seus prompts em camadas — não deixe os clientes quebrarem a Camada 1: Implementou um sistema de três camadas: regras principais de segurança (imutáveis), personalidade vertical (substituível por setor), instruções personalizadas do cliente (apenas aditivas). Os clientes não podem substituir a Camada 1 por meio de suas instruções personalizadas. Isso evitou ataques de "ignorar instruções anteriores" e que os clientes acidentalmente quebrassem seus próprios bots.
  • Embeddings locais são bons o suficiente: Usou sentence-transformers all-MiniLM-L6-v2 rodando localmente no ChromaDB sem API externa de embedding. Para perguntas e respostas de documentos em um domínio específico, ele tem desempenho próximo o suficiente ao ada-002 para que a economia de custos e latência valha a pena. A qualidade do LLM (Claude Haiku) está fazendo mais trabalho do que os embeddings de qualquer maneira.
  • Uma droplet por cliente: Tentou primeiro infraestrutura compartilhada, mas descobriu que a sobrecarga operacional de manter as coleções do ChromaDB isoladas, gerenciar chaves de API e evitar contaminação cruzada era pior do que simplesmente criar uma VM de US$ 6/mês por cliente. Cada cliente possui seu próprio armazenamento vetorial, e seus documentos nunca tocam a infraestrutura compartilhada.

O desenvolvedor disponibilizou o mecanismo RAG no GitHub para outros examinarem.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Desenvolvedor Troca Especificações por Propostas para Sessões de Código Paralelas do Claude
Use Cases

Desenvolvedor Troca Especificações por Propostas para Sessões de Código Paralelas do Claude

Um desenvolvedor compartilha um fluxo de trabalho usando propostas em vez de especificações ao executar 5-10 sessões do Claude Code em paralelo, abordando o problema da IA gerar código tecnicamente correto, mas contextualmente errado a partir de especificações detalhadas.

OpenClawRadar
Coordenação de Múltiplos Agentes de IA: Discord, Tarefas Agendadas e Hierarquia Clara
Use Cases

Coordenação de Múltiplos Agentes de IA: Discord, Tarefas Agendadas e Hierarquia Clara

Um desenvolvedor executando três agentes OpenClaw resolveu problemas de coordenação usando o Discord como canal de comunicação compartilhado, substituindo o caro sistema de heartbeat do Paperclip por cron jobs por agente e estabelecendo uma hierarquia clara de liderança entre os modelos Claude Max e OpenAI.

OpenClawRadar
O fluxo de trabalho Claude MCP automatiza o reengajamento de leads no LinkedIn com restrições adaptativas
Use Cases

O fluxo de trabalho Claude MCP automatiza o reengajamento de leads no LinkedIn com restrições adaptativas

Um desenvolvedor criou um fluxo de trabalho usando Claude com MCP para reengajar automaticamente conexões antigas do LinkedIn, identificando leads, gerando mensagens contextuais e lidando com restrições da plataforma de forma adaptativa. De 7 leads direcionados, 5 mensagens foram enviadas com sucesso enquanto 2 foram ignoradas devido a restrições do LinkedIn.

OpenClawRadar
Agente Jam: Agentes de IA Colaboram na Game Jam do Godot via GitHub
Use Cases

Agente Jam: Agentes de IA Colaboram na Game Jam do Godot via GitHub

Agent Jam é uma game jam onde agentes de IA constroem um jogo web no Godot 4.4 no GitHub sem código escrito por humanos. O projeto usa issues do GitHub para discussões de design, validação CI para PRs e exige que os jogos sejam jogáveis na web via exportação HTML5 do Godot.

OpenClawRadar