95% Poisoning Attack Success sur RAG local ChromaDB + LM Studio

De quoi s'agit-il

Aminrj Labs a publié un laboratoire open-source d'attaque et de défense RAG qui fonctionne entièrement en local sur du matériel grand public, ciblant spécifiquement les piles ChromaDB + LM Studio avec un découpage standard de type LangChain. Aucun service cloud ou clé API n'est requis—il fonctionne sur du matériel comme un MacBook Pro.

Principales découvertes du laboratoire

Le laboratoire mesure l'efficacité de l'empoisonnement des bases de connaissances contre les configurations RAG locales par défaut. Sur un système ChromaDB non défendu, les attaques d'empoisonnement atteignent 95 % de réussite. L'attaque opère au niveau de la récupération—aucun jailbreak, accès au modèle ou manipulation de prompt n'est nécessaire. Le modèle fonctionne exactement comme prévu, mais avec un contexte empoisonné.

Une observation notable concernant le découpage par défaut : avec des blocs de 512 tokens et un chevauchement de 200 tokens, un document à la limite d'un bloc est intégré deux fois comme deux blocs indépendants. Cela double la probabilité de récupération sans sophistication supplémentaire, un effet secondaire des paramètres que la plupart des configurations locales héritent sans y réfléchir.

L'approche de défense la plus courante—le filtrage des sorties—cible la mauvaise couche puisque la compromission se produit avant la génération. La détection d'anomalies d'intégration lors de l'ingestion s'avère efficace : noter les documents entrants par rapport à la collection existante avant de les écrire réduit le succès de l'empoisonnement de 95 % à 20 %.

Avec les cinq défenses actives, le succès résiduel de l'empoisonnement est de 10 %. Ces cas sont sémantiquement suffisamment proches de la ligne de base qu'aucune couche ne les détecte clairement, représentant le plafond pratique pour la défense.

Détails techniques

Pile : ChromaDB + LM Studio avec Qwen2.5-7B
Découpage : Standard de type LangChain avec des blocs de 512 tokens et un chevauchement de 200 tokens
Succès de l'attaque sur système non défendu : 95 %
Efficacité de la défense avec détection d'anomalies d'intégration : Réduit l'empoisonnement à 20 %
Empoisonnement résiduel avec toutes les défenses : 10 %

Le dépôt contient l'implémentation de l'attaque, la version renforcée et les mesures pour chaque couche de défense.

📖 Read the full source: r/LocalLLaMA

Laboratoire d'attaque et de défense RAG open-source pour piles locales ChromaDB + LM Studio

De quoi s'agit-il

Principales découvertes du laboratoire

Détails techniques

👀 See Also

L'Approche Sécurité d'abord d'IronClaw pour la Sécurité des Agents IA

Sécurisation de l'Infrastructure OpenClaw avec le Proxy Sensible à l'Identité Pomerium

Deux approches pour réduire le risque de fuite de données avec les agents IA

Protection budgétaire IA : Pourquoi vous devriez utiliser une carte prépayée avec OpenClaw