RAG-Bots: 4 Lektionen für regulierte Branchen

Wichtige Implementierungsdetails

Diese Fallstudie behandelt den Einsatz eines RAG-basierten KI-Assistenten für australische Arbeitsplatz-Compliance-Anwendungsfälle auf Baustellen, in Altenpflegeeinrichtungen und Bergbaubetrieben.

Technische Lektionen

Abfrageerweiterung ist wichtiger als Chunk-Größe: Anstatt sich auf die Chunk-Größe (400 Wörter? 512 Tokens?) zu versteifen, stellte der Entwickler fest, dass das Generieren von 4 alternativen Formulierungen jeder Abfrage über Haiku, das Ausführen aller 4 gegen ChromaDB und das anschließende Zusammenführen und Deduplizieren der Ergebnisse die Abrufqualität erheblich verbesserte. Dies war besonders effektiv für domänenspezifischen Jargon, bei dem Benutzer Dinge anders formulieren als Dokumentautoren.
Quellen-Boost für benannte Dokumente: Wenn die Abfrage eines Benutzers Wörter enthält, die mit einem indizierten Dokumenttitel übereinstimmen, sollten Chunks aus diesem Dokument unabhängig von der semantischen Ähnlichkeit zwangsweise einbezogen werden. Beispiel: „Was sagt unsere FIFO-Richtlinie zu R&R-Flügen?“ sollte immer aus der FIFO-Richtlinie stammen – nicht nur aus semantisch ähnlichen Chunks, die zufällig Flüge erwähnen.
Schichten Sie Ihre Prompts – lassen Sie Kunden nicht Ebene 1 brechen: Implementiert wurde ein dreischichtiges System: Kern-Sicherheitsregeln (unveränderlich), vertikale Persönlichkeit (branchenspezifisch austauschbar), kundenspezifische Anweisungen (nur additiv). Kunden können Ebene 1 nicht über ihre benutzerdefinierten Anweisungen überschreiben. Dies verhinderte „Ignoriere vorherige Anweisungen“-Angriffe und versehentliches Jailbreaking der eigenen Bots durch Kunden.
Lokale Embeddings sind gut genug: Verwendet wurde sentence-transformers all-MiniLM-L6-v2, lokal auf ChromaDB laufend, ohne externe Embedding-API. Für Dokumenten-F&A in einer spezifischen Domäne ist die Leistung nahe genug an ada-002, dass die Kosteneinsparungen und geringere Latenz es wert sind. Die LLM-Qualität (Claude Haiku) leistet ohnehin mehr Arbeit als die Embeddings.
Ein Droplet pro Kunde: Zuerst wurde geteilter Infrastruktur versucht, aber der Betriebsaufwand für die Isolierung von ChromaDB-Sammlungen, das Verwalten von API-Schlüsseln und die Verhinderung von Kreuzkontamination war schlimmer als das einfache Bereitstellen einer 6 $/Monat VM pro Kunde. Jeder Kunde besitzt seinen eigenen Vektorspeicher, und seine Dokumente berühren niemals geteilte Infrastruktur.

Der Entwickler hat die RAG-Engine auf GitHub zur Verfügung gestellt, damit andere sie untersuchen können.

📖 Den vollständigen Source lesen: r/LocalLLaMA

Praktische Lehren aus dem Einsatz von RAG-Bots in regulierten Branchen

Wichtige Implementierungsdetails

Technische Lektionen

👀 Siehe auch

Verwendung von Claude als Lernmentor mit Dokumentationskontext

Autoevolve Framework nutzt Claude Code für die Entwicklung von KI in Spielen durch Selbstspiel-Evolution

Entwickler nutzt Claude Code, um SetForge-Web-App für Band-Management zu erstellen

Automatisierung von Recruiting-Workflows mit Claude Desktop: Eine Fallstudie