Agent IA CodeWall : Vulnérabilités Critiques dans Lilli de McKinsey

Comment l'attaque s'est déroulée

L'agent de recherche de CodeWall a sélectionné de manière autonome McKinsey comme cible en se basant sur leur politique publique de divulgation responsable et les récentes mises à jour de la plateforme Lilli. En commençant avec seulement le nom de domaine et sans identifiants, l'agent a cartographié la surface d'attaque et a trouvé une documentation API exposée publiquement avec plus de 200 points de terminaison.

Vingt-deux points de terminaison ne nécessitaient pas d'authentification. Un point de terminaison non protégé écrivait les requêtes de recherche des utilisateurs dans la base de données avec des clés JSON concaténées directement dans des instructions SQL. L'agent a reconnu l'injection SQL lorsqu'il a trouvé des clés JSON reflétées textuellement dans les messages d'erreur de la base de données — une vulnérabilité que des outils standards comme OWASP ZAP n'ont pas signalée.

Ce qui a été exposé

46,5 millions de messages de discussion contenant des discussions stratégiques, des engagements clients, des données financières, des activités de fusions et acquisitions, et des recherches internes
728 000 fichiers incluant 192 000 PDF, 93 000 feuilles de calcul Excel, 93 000 présentations PowerPoint et 58 000 documents Word
57 000 comptes utilisateurs pour chaque employé sur la plateforme
384 000 assistants IA et 94 000 espaces de travail révélant la structure organisationnelle de l'IA de l'entreprise
95 invites système et configurations de modèles d'IA sur 12 types de modèles, montrant les garde-fous et les détails de déploiement
3,68 millions de fragments de documents RAG contenant des décennies de recherche et de méthodologies propriétaires de McKinsey
1,1 million de fichiers et 217 000 messages d'agents transitant par des API d'IA externes, incluant plus de 266 000 magasins vectoriels OpenAI

Vulnérabilités critiques découvertes

L'injection SQL n'était pas en lecture seule. Les invites système de Lilli — qui contrôlent le comportement de l'IA, les garde-fous qu'elle suit et comment elle cite ses sources — étaient stockées dans la même base de données. Un attaquant avec un accès en écriture aurait pu :

Réécrire silencieusement les invites avec une seule instruction UPDATE encapsulée dans un seul appel HTTP
Empoisonner les conseils en modifiant les modèles financiers, les recommandations stratégiques ou les évaluations des risques
Permettre l'exfiltration de données en instruisant l'IA d'intégrer des informations confidentielles dans les réponses
Supprimer les garde-fous pour divulguer des données internes ou ignorer les contrôles d'accès

L'agent a également enchaîné l'injection SQL avec une vulnérabilité d'IDOR pour lire les historiques de recherche individuels des employés, révélant sur quoi les personnes travaillaient activement.

Implications pour la sécurité de l'IA

Ce cas démontre comment les agents d'IA peuvent sélectionner et attaquer des cibles de manière autonome, l'agent CodeWall ayant accompli l'ensemble du processus sans intervention humaine. Le paysage des menaces évolue car les agents d'IA peuvent désormais trouver des vulnérabilités que les outils traditionnels manquent, particulièrement dans les systèmes complexes où la concaténation de clés JSON crée des opportunités d'injection SQL qui ne suivent pas les modèles standards.

📖 Read the full source: HN AI Agents