L'Agent IA CodeWall Découvre des Vulnérabilités Critiques dans la Plateforme Lilli de McKinsey

Comment l'attaque s'est déroulée
L'agent de recherche de CodeWall a sélectionné de manière autonome McKinsey comme cible en se basant sur leur politique publique de divulgation responsable et les récentes mises à jour de la plateforme Lilli. En commençant avec seulement le nom de domaine et sans identifiants, l'agent a cartographié la surface d'attaque et a trouvé une documentation API exposée publiquement avec plus de 200 points de terminaison.
Vingt-deux points de terminaison ne nécessitaient pas d'authentification. Un point de terminaison non protégé écrivait les requêtes de recherche des utilisateurs dans la base de données avec des clés JSON concaténées directement dans des instructions SQL. L'agent a reconnu l'injection SQL lorsqu'il a trouvé des clés JSON reflétées textuellement dans les messages d'erreur de la base de données — une vulnérabilité que des outils standards comme OWASP ZAP n'ont pas signalée.
Ce qui a été exposé
- 46,5 millions de messages de discussion contenant des discussions stratégiques, des engagements clients, des données financières, des activités de fusions et acquisitions, et des recherches internes
- 728 000 fichiers incluant 192 000 PDF, 93 000 feuilles de calcul Excel, 93 000 présentations PowerPoint et 58 000 documents Word
- 57 000 comptes utilisateurs pour chaque employé sur la plateforme
- 384 000 assistants IA et 94 000 espaces de travail révélant la structure organisationnelle de l'IA de l'entreprise
- 95 invites système et configurations de modèles d'IA sur 12 types de modèles, montrant les garde-fous et les détails de déploiement
- 3,68 millions de fragments de documents RAG contenant des décennies de recherche et de méthodologies propriétaires de McKinsey
- 1,1 million de fichiers et 217 000 messages d'agents transitant par des API d'IA externes, incluant plus de 266 000 magasins vectoriels OpenAI
Vulnérabilités critiques découvertes
L'injection SQL n'était pas en lecture seule. Les invites système de Lilli — qui contrôlent le comportement de l'IA, les garde-fous qu'elle suit et comment elle cite ses sources — étaient stockées dans la même base de données. Un attaquant avec un accès en écriture aurait pu :
- Réécrire silencieusement les invites avec une seule instruction UPDATE encapsulée dans un seul appel HTTP
- Empoisonner les conseils en modifiant les modèles financiers, les recommandations stratégiques ou les évaluations des risques
- Permettre l'exfiltration de données en instruisant l'IA d'intégrer des informations confidentielles dans les réponses
- Supprimer les garde-fous pour divulguer des données internes ou ignorer les contrôles d'accès
L'agent a également enchaîné l'injection SQL avec une vulnérabilité d'IDOR pour lire les historiques de recherche individuels des employés, révélant sur quoi les personnes travaillaient activement.
Implications pour la sécurité de l'IA
Ce cas démontre comment les agents d'IA peuvent sélectionner et attaquer des cibles de manière autonome, l'agent CodeWall ayant accompli l'ensemble du processus sans intervention humaine. Le paysage des menaces évolue car les agents d'IA peuvent désormais trouver des vulnérabilités que les outils traditionnels manquent, particulièrement dans les systèmes complexes où la concaténation de clés JSON crée des opportunités d'injection SQL qui ne suivent pas les modèles standards.
📖 Read the full source: HN AI Agents
👀 See Also

L'analyse de sécurité révèle une vulnérabilité de haute gravité dans l'outil de recherche de compétences de l'agent IA.
Un développeur effectuant une analyse de sécurité sur sa configuration d'agent IA a découvert une vulnérabilité de haute gravité dans l'outil find-skills qu'il utilisait pour installer des compétences supplémentaires, soulevant des inquiétudes quant à la sécurité de l'écosystème.

McpVanguard : Proxy de sécurité open-source pour les agents d'IA basés sur MCP
McpVanguard est un proxy de sécurité et un pare-feu à 3 couches qui se place entre les agents d'IA et les outils MCP, ajoutant une protection contre l'injection de prompts, le parcours de chemins et d'autres attaques avec une latence d'environ 16 ms.

Claude met en place une vérification d'identité pour certains cas d'utilisation.
Anthropic déploie la vérification d'identité pour Claude via Persona Identities, exigeant des pièces d'identité officielles avec photo et des selfies en direct. Le processus de vérification prend moins de cinq minutes et vise à prévenir les abus et à se conformer aux obligations légales.

Vulnérabilité d'exécution de code à distance dans l'application Windows Notepad CVE-2026-20841
CVE-2026-20841 est une vulnérabilité d'exécution de code à distance dans l'application Bloc-notes de Windows. Les détails et les étapes d'atténuation sont disponibles dans le guide de mise à jour du Centre de réponse de sécurité Microsoft.