RAG-Angriffslabor: 95% Erfolg bei Wissensbasisvergiftung

Was das ist

Aminrj Labs hat ein Open-Source-RAG-Angriffs- und Abwehrlabor veröffentlicht, das vollständig lokal auf Consumer-Hardware läuft und speziell ChromaDB + LM Studio-Stacks mit Standard-LangChain-Stil-Chunking ins Visier nimmt. Es sind keine Cloud-Dienste oder API-Schlüssel erforderlich – es läuft auf Hardware wie einem MacBook Pro.

Wichtige Erkenntnisse aus dem Labor

Das Labor misst die Wirksamkeit von Wissensbasisvergiftungen gegen Standard-Lokal-RAG-Setups. Auf einem ungeschützten ChromaDB-System erreichen Vergiftungsangriffe eine Erfolgsquote von 95 %. Der Angriff operiert auf der Abrufebene – es ist kein Jailbreak, Modellzugriff oder Prompt-Manipulation erforderlich. Das Modell funktioniert genau wie vorgesehen, nur mit vergiftetem Kontext.

Eine bemerkenswerte Beobachtung zum Standard-Chunking: Bei 512-Token-Chunks und 200-Token-Überlappung wird ein Dokument an einer Chunk-Grenze zweimal als zwei unabhängige Chunks eingebettet. Dies verdoppelt die Abrufwahrscheinlichkeit ohne zusätzliche Raffinesse, ein Nebeneffekt von Einstellungen, die die meisten lokalen Setups ohne Überlegung übernehmen.

Der häufigste Abwehransatz – Ausgabefilterung – zielt auf die falsche Ebene ab, da die Kompromittierung vor der Generierung erfolgt. Anomalieerkennung bei der Einbettung während der Erfassung erweist sich als wirksam: Die Bewertung eingehender Dokumente gegen die bestehende Sammlung vor dem Schreiben reduziert die Vergiftungserfolgsquote von 95 % auf 20 %.

Bei allen fünf aktiven Abwehrmaßnahmen beträgt die verbleibende Vergiftungserfolgsquote 10 %. Diese Fälle sind semantisch nahe genug an der Basislinie, sodass keine Ebene sie eindeutig erkennt, was die praktische Obergrenze für die Abwehr darstellt.

Technische Details

Stack: ChromaDB + LM Studio mit Qwen2.5-7B
Chunking: Standard-LangChain-Stil mit 512-Token-Chunks und 200-Token-Überlappung
Angriffserfolg auf ungeschütztem System: 95 %
Abwehrwirksamkeit mit Einbettungs-Anomalieerkennung: Senkt Vergiftung auf 20 %
Verbleibende Vergiftung mit allen Abwehrmaßnahmen: 10 %

Das Repository enthält die Angriffsimplementierung, gehärtete Version und Messungen für jede Abwehrebene.

📖 Read the full source: r/LocalLLaMA

Open-Source RAG-Angriffs- und Verteidigungslabor für lokale ChromaDB + LM Studio Stacks

Was das ist

Wichtige Erkenntnisse aus dem Labor

Technische Details

👀 Siehe auch

Drei E-Mail-basierte Angriffsvektoren gegen KI-Agenten, die E-Mails lesen

Sichere Administrator-Genehmigungsablauf für Gruppen-Chat-Assistenten gegen Prompt-Injection

Live-Dashboard der exponierten OpenClaw-Tools

Claude Code führt nach Widerruf Protokollsitzungen fort, Nutzer berichtet von 2-wöchiger Support-Stille