Protection des assistants de groupe contre les injections de prompt

Le post r/ClaudeAI "Mitigating prompt injections in group-chat assistants: Pausing VM and OAuth tool execution for admin approvals" décrit un modèle de sécurité pratique pour les assistants basés sur LLM connectés à des canaux publics ou partagés (ex. WhatsApp via Supergreen ou chats de groupe). Le problème principal : lorsque plusieurs utilisateurs partagent le même historique de session, n'importe quel participant peut injecter une invite pour déclencher des outils dangereux — lancer des ressources cloud, exécuter du code avec des secrets mappés, ou récupérer des jetons OAuth.

Processus d'approbation sécurisé pour l'administrateur

La solution proposée dans prompt2bot est un flux d'approbation sécurisé par l'administrateur qui intercepte les exécutions d'outils à haut risque :

Lorsqu'un utilisateur non administrateur déclenche create_vm, run_safescript (exécution de code personnalisé avec secrets mappés), ou des flux OAuth, l'outil suspend l'exécution et renvoie : "demande d'autorisation en cours..."
Un lien d'approbation avec une durée de validité de 10 minutes est automatiquement envoyé aux administrateurs configurés via WhatsApp ou email.
Une fois approuvé, un job en arrière-plan injecte une notification système dans l'historique de la conversation : [Notification système : L'administrateur a approuvé votre demande d'exécution de <toolName> (ID de demande : <requestId>)].
Cette injection de pensée réveille la boucle de l'agent, qui rappelle l'outil avec le request_id approuvé pour continuer sans interruption.
Pour les invités (propriétaires du bot sans email/téléphone configuré), les approbations sont ignorées pour faciliter les tests en développement.

À qui s'adresse cette solution

Développeurs créant des assistants polyvalents opérant dans des canaux partagés et devant sécuriser l'accès à des outils puissants contre les attaques par injection de prompt de participants non fiables.

📖 Lire la source complète : r/ClaudeAI

Flux d'approbation sécurisé pour les administrateurs des assistants de chat de groupe contre l'injection de prompts

Processus d'approbation sécurisé pour l'administrateur

À qui s'adresse cette solution

👀 See Also

Piratage du chiffrement de la médiation AppLovin : l'empreinte numérique des appareils contourne l'ATT

Alerte de Sécurité OpenClaw : 500 000 instances publiques, la configuration par défaut expose les systèmes

Enveloppe de Contenu Externe d'OpenClaw pour la Défense contre l'Injection d'Invites

Correction architecturale pour la sur-centralisation des agents IA : séparation de la mémoire, de l'exécution et des actions sortantes