Leçons déploiement bots RAG secteurs réglementés

Détails clés de mise en œuvre

Cette étude de cas couvre le déploiement d'un assistant IA alimenté par RAG pour des cas d'utilisation de conformité en milieu de travail australien sur les chantiers de construction, dans les établissements de soins aux personnes âgées et les opérations minières.

Leçons techniques apprises

L'expansion des requêtes compte plus que la taille des segments : Plutôt que de s'obséder sur la taille des segments (400 mots ? 512 tokens ?), le développeur a constaté que générer 4 formulations alternatives de chaque requête via Haiku, exécuter les 4 contre ChromaDB, puis fusionner et dédupliquer les résultats améliorait significativement la qualité de la récupération. Cela était particulièrement efficace pour le jargon spécifique au domaine où les utilisateurs formulent les choses différemment des auteurs des documents.
Renforcement de la source pour les documents nommés : Si la requête d'un utilisateur contient des mots qui correspondent au titre d'un document indexé, inclure de force les segments de ce document indépendamment de la similarité sémantique. Par exemple, "Que dit notre politique FIFO concernant les vols R&R ?" devrait toujours extraire des informations de la politique FIFO — et pas seulement des segments sémantiquement similaires qui mentionnent par hasard des vols.
Superposez vos invites — ne laissez pas les clients contourner la Couche 1 : Mise en place d'un système à trois couches : règles de sécurité/de sûreté fondamentales (immuables), personnalité verticale (échangeable par industrie), instructions personnalisées du client (additives uniquement). Les clients ne peuvent pas outrepasser la Couche 1 via leurs instructions personnalisées. Cela a empêché les attaques de type "ignorez les instructions précédentes" et les clients de libérer accidentellement leurs propres bots.
Les embeddings locaux sont suffisants : Utilisation de sentence-transformers all-MiniLM-L6-v2 exécuté localement sur ChromaDB sans API d'embedding externe. Pour le Q&A de documents dans un domaine spécifique, il performe suffisamment proche d'ada-002 pour que les économies de coût et de latence en valent la peine. La qualité du LLM (Claude Haiku) fait de toute façon plus de travail que les embeddings.
Une droplet par client : Tentative d'infrastructure partagée d'abord, mais constatation que la surcharge opérationnelle de garder les collections ChromaDB isolées, de gérer les clés API et d'empêcher la contamination croisée était pire que de simplement lancer une VM à 6$/mois par client. Chaque client possède son propre magasin de vecteurs, et ses documents ne touchent jamais l'infrastructure partagée.

Le développeur a rendu le moteur RAG disponible sur GitHub pour que d'autres puissent l'examiner.

📖 Read the full source: r/LocalLLaMA

Leçons pratiques tirées du déploiement de bots RAG dans les secteurs réglementés

Détails clés de mise en œuvre

Leçons techniques apprises

👀 See Also

Développeur Crée une Application de Finance Personnelle en un Mois avec Claude Code : Flux de Travail Clés et Défis

Utiliser OpenClaw pour séparer les finances professionnelles et personnelles : l'approche d'un praticien solo

Claude Code conçoit des cartes de visite imprimables via HTML + Playwright

Détail des coûts de l'agent IA : 12 $ par mois avec des modèles locaux et des API cloud.