Flux d'approbation sécurisé pour les administrateurs des assistants de chat de groupe contre l'injection de prompts

Le post r/ClaudeAI "Mitigating prompt injections in group-chat assistants: Pausing VM and OAuth tool execution for admin approvals" décrit un modèle de sécurité pratique pour les assistants basés sur LLM connectés à des canaux publics ou partagés (ex. WhatsApp via Supergreen ou chats de groupe). Le problème principal : lorsque plusieurs utilisateurs partagent le même historique de session, n'importe quel participant peut injecter une invite pour déclencher des outils dangereux — lancer des ressources cloud, exécuter du code avec des secrets mappés, ou récupérer des jetons OAuth.
Processus d'approbation sécurisé pour l'administrateur
La solution proposée dans prompt2bot est un flux d'approbation sécurisé par l'administrateur qui intercepte les exécutions d'outils à haut risque :
- Lorsqu'un utilisateur non administrateur déclenche
create_vm,run_safescript(exécution de code personnalisé avec secrets mappés), ou des flux OAuth, l'outil suspend l'exécution et renvoie : "demande d'autorisation en cours..." - Un lien d'approbation avec une durée de validité de 10 minutes est automatiquement envoyé aux administrateurs configurés via WhatsApp ou email.
- Une fois approuvé, un job en arrière-plan injecte une notification système dans l'historique de la conversation :
[Notification système : L'administrateur a approuvé votre demande d'exécution de <toolName> (ID de demande : <requestId>)]. - Cette injection de pensée réveille la boucle de l'agent, qui rappelle l'outil avec le
request_idapprouvé pour continuer sans interruption. - Pour les invités (propriétaires du bot sans email/téléphone configuré), les approbations sont ignorées pour faciliter les tests en développement.
À qui s'adresse cette solution
Développeurs créant des assistants polyvalents opérant dans des canaux partagés et devant sécuriser l'accès à des outils puissants contre les attaques par injection de prompt de participants non fiables.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Liste de contrôle de sécurité pour les applications générées par l'IA Claude
Un développeur partage une liste de contrôle des lacunes courantes en matière de sécurité et d'exploitation dans les applications construites avec Claude Code, notamment la limitation de débit, les failles d'authentification, les problèmes de mise à l'échelle de la base de données et les vulnérabilités de traitement des entrées.

Sieve : Scanneur local de secrets pour historiques de chats d’outils de codage IA
Sieve analyse l'historique des conversations des assistants de codage IA comme Cursor, Claude Code, Copilot, etc., à la recherche de clés API et de tokens divulgués. L'analyse est entièrement locale, avec occultation et coffre-fort du trousseau macOS.

L'outil de recherche de conversations de Claude renvoie toujours les conversations supprimées
Un utilisateur de Claude Pro a découvert que les conversations supprimées restent récupérables via l'outil de recherche de conversations de Claude, renvoyant un contenu substantiel incluant les titres, le nombre de messages et des extraits, bien que les liens des discussions soient inactifs.

Claude met en place une vérification d'identité pour certains cas d'utilisation.
Anthropic déploie la vérification d'identité pour Claude via Persona Identities, exigeant des pièces d'identité officielles avec photo et des selfies en direct. Le processus de vérification prend moins de cinq minutes et vise à prévenir les abus et à se conformer aux obligations légales.