Laboratoire d'attaque et de défense RAG open-source pour piles locales ChromaDB + LM Studio

De quoi s'agit-il
Aminrj Labs a publié un laboratoire open-source d'attaque et de défense RAG qui fonctionne entièrement en local sur du matériel grand public, ciblant spécifiquement les piles ChromaDB + LM Studio avec un découpage standard de type LangChain. Aucun service cloud ou clé API n'est requis—il fonctionne sur du matériel comme un MacBook Pro.
Principales découvertes du laboratoire
Le laboratoire mesure l'efficacité de l'empoisonnement des bases de connaissances contre les configurations RAG locales par défaut. Sur un système ChromaDB non défendu, les attaques d'empoisonnement atteignent 95 % de réussite. L'attaque opère au niveau de la récupération—aucun jailbreak, accès au modèle ou manipulation de prompt n'est nécessaire. Le modèle fonctionne exactement comme prévu, mais avec un contexte empoisonné.
Une observation notable concernant le découpage par défaut : avec des blocs de 512 tokens et un chevauchement de 200 tokens, un document à la limite d'un bloc est intégré deux fois comme deux blocs indépendants. Cela double la probabilité de récupération sans sophistication supplémentaire, un effet secondaire des paramètres que la plupart des configurations locales héritent sans y réfléchir.
L'approche de défense la plus courante—le filtrage des sorties—cible la mauvaise couche puisque la compromission se produit avant la génération. La détection d'anomalies d'intégration lors de l'ingestion s'avère efficace : noter les documents entrants par rapport à la collection existante avant de les écrire réduit le succès de l'empoisonnement de 95 % à 20 %.
Avec les cinq défenses actives, le succès résiduel de l'empoisonnement est de 10 %. Ces cas sont sémantiquement suffisamment proches de la ligne de base qu'aucune couche ne les détecte clairement, représentant le plafond pratique pour la défense.
Détails techniques
- Pile : ChromaDB + LM Studio avec Qwen2.5-7B
- Découpage : Standard de type LangChain avec des blocs de 512 tokens et un chevauchement de 200 tokens
- Succès de l'attaque sur système non défendu : 95 %
- Efficacité de la défense avec détection d'anomalies d'intégration : Réduit l'empoisonnement à 20 %
- Empoisonnement résiduel avec toutes les défenses : 10 %
Le dépôt contient l'implémentation de l'attaque, la version renforcée et les mesures pour chaque couche de défense.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Claude Cowork : Préoccupations de sécurité liées à la permission 'Autoriser toutes les actions du navigateur' et correctifs proposés
Un utilisateur de Reddit souligne que le bouton 'Autoriser tout' de Claude Cowork accorde un accès permanent et illimité au navigateur pour toutes les sessions futures, sans visibilité, limites ni expiration, créant ainsi des risques de sécurité. La publication propose des autorisations limitées à la session ou à la compétence comme paramètres par défaut plus sûrs.

Sécurité des agents IA : Au-delà des jailbreaks, vers l'utilisation abusive des outils et l'injection de prompts
Les agents d'IA qui naviguent sur le web, exécutent des commandes et déclenchent des flux de travail sont confrontés à des risques de sécurité liés à l'injection de prompts et à l'utilisation abusive d'outils, où du contenu non fiable redirige des outils légitimes comme l'exécution de shell et les requêtes HTTP.

Claude Code continue de journaliser les sessions après une révocation, un utilisateur signale un silence de 2 semaines du support
Un utilisateur de Claude Code signale que les journaux de session continuaient d'apparaître après avoir révoqué l'accès, le support d'Anthropic restant sans réponse pendant deux semaines. Les journaux incluaient des étendues comme user:file_upload, user:ccr_inference et user:sessions:claude_code.

Le problème des gardes en uniforme : pourquoi les environnements d'agents ont besoin d'identité, pas seulement de politiques
Le bac à sable openshell de Nemoclaw applique des politiques aux binaires, permettant aux logiciels malveillants de vivre sur le territoire en utilisant les mêmes binaires que l'agent. ZeroID, une couche d'identité d'agent open-source, applique des politiques de sécurité aux agents soutenus par des identités sécurisées.