CodeWall KI-Agent: 46,5 Mio. Nachrichten offengelegt

Wie der Angriff ablief

CodeWalls Forschungsagent wählte McKinsey autonom als Ziel basierend auf deren öffentlicher Responsible-Disclosure-Richtlinie und kürzlichen Lilli-Plattform-Updates. Mit nur dem Domainnamen und ohne Anmeldedaten kartierte der Agent die Angriffsfläche und fand öffentlich zugängliche API-Dokumentation mit über 200 Endpunkten.

Zweiundzwanzig Endpunkte erforderten keine Authentifizierung. Ein ungeschützter Endpunkt schrieb Benutzersuchanfragen in die Datenbank, wobei JSON-Schlüssel direkt in SQL-Anweisungen verkettet wurden. Der Agent erkannte SQL-Injection, als er feststellte, dass JSON-Schlüssel wortwörtlich in Datenbankfehlermeldungen wiedergegeben wurden – eine Schwachstelle, die Standardtools wie OWASP ZAP nicht erkannten.

Was offengelegt wurde

46,5 Millionen Chat-Nachrichten mit Strategiediskussionen, Kundenengagements, Finanzdaten, M&A-Aktivitäten und interner Forschung
728.000 Dateien, darunter 192.000 PDFs, 93.000 Excel-Tabellen, 93.000 PowerPoint-Präsentationen und 58.000 Word-Dokumente
57.000 Benutzerkonten für jeden Mitarbeiter auf der Plattform
384.000 KI-Assistenten und 94.000 Arbeitsbereiche, die die organisatorische KI-Struktur des Unternehmens offenlegten
95 Systemprompts und KI-Modellkonfigurationen über 12 Modelltypen hinweg, die Schutzmaßnahmen und Bereitstellungsdetails zeigten
3,68 Millionen RAG-Dokumentenblöcke mit jahrzehntelanger proprietärer McKinsey-Forschung und -Methoden
1,1 Millionen Dateien und 217.000 Agentennachrichten, die über externe KI-APIs flossen, einschließlich 266.000+ OpenAI-Vector-Stores

Kritische entdeckte Schwachstellen

Die SQL-Injection war nicht nur lesend. Lillis Systemprompts – die steuern, wie sich die KI verhält, welche Schutzmaßnahmen sie befolgt und wie sie Quellen zitiert – wurden in derselben Datenbank gespeichert. Ein Angreifer mit Schreibzugriff hätte:

Prompts lautlos mit einer einzigen UPDATE-Anweisung in einem einzigen HTTP-Aufruf umschreiben können
Ratschläge vergiftet, indem Finanzmodelle, strategische Empfehlungen oder Risikobewertungen verändert wurden
Datenexfiltration ermöglicht, indem die KI angewiesen wurde, vertrauliche Informationen in Antworten einzubetten
Schutzmaßnahmen entfernt, um interne Daten preiszugeben oder Zugriffskontrollen zu ignorieren

Der Agent verknüpfte die SQL-Injection außerdem mit einer IDOR-Schwachstelle, um die Suchverläufe einzelner Mitarbeiter auszulesen und offenzulegen, woran Menschen aktiv arbeiteten.

Implikationen für die KI-Sicherheit

Dieser Fall zeigt, wie KI-Agenten autonom Ziele auswählen und angreifen können, wobei der CodeWall-Agent den gesamten Prozess ohne menschliche Beteiligung abschloss. Die Bedrohungslandschaft verschiebt sich, da KI-Agenten nun Schwachstellen finden können, die traditionelle Tools übersehen, insbesondere in komplexen Systemen, wo JSON-Schlüsselverkettung SQL-Injection-Möglichkeiten schafft, die nicht standardmäßigen Mustern folgen.

📖 Read the full source: HN AI Agents

CodeWall KI-Agent entdeckt kritische Schwachstellen in McKinseys Lilli-Plattform

Wie der Angriff ablief

Was offengelegt wurde

Kritische entdeckte Schwachstellen

Implikationen für die KI-Sicherheit

👀 Siehe auch

Überwachung von OpenClaw-Befehlen mit Python und Gemini Flash für die Sicherheit

FlyTrap-Angriff nutzt adversarische Schirme, um kamera-basierte autonome Drohnen zu kompromittieren.

ClawVault-Sicherheitsverbesserung fügt sensible Datenerkennung für OpenClaw hinzu

AISI-Bewertung zeigt Claude Mythos Preview Cyber-Fähigkeiten in CTF und mehrstufigen Angriffen