CodeWall KI-Agent entdeckt kritische Schwachstellen in McKinseys Lilli-Plattform

Wie der Angriff ablief
CodeWalls Forschungsagent wählte McKinsey autonom als Ziel basierend auf deren öffentlicher Responsible-Disclosure-Richtlinie und kürzlichen Lilli-Plattform-Updates. Mit nur dem Domainnamen und ohne Anmeldedaten kartierte der Agent die Angriffsfläche und fand öffentlich zugängliche API-Dokumentation mit über 200 Endpunkten.
Zweiundzwanzig Endpunkte erforderten keine Authentifizierung. Ein ungeschützter Endpunkt schrieb Benutzersuchanfragen in die Datenbank, wobei JSON-Schlüssel direkt in SQL-Anweisungen verkettet wurden. Der Agent erkannte SQL-Injection, als er feststellte, dass JSON-Schlüssel wortwörtlich in Datenbankfehlermeldungen wiedergegeben wurden – eine Schwachstelle, die Standardtools wie OWASP ZAP nicht erkannten.
Was offengelegt wurde
- 46,5 Millionen Chat-Nachrichten mit Strategiediskussionen, Kundenengagements, Finanzdaten, M&A-Aktivitäten und interner Forschung
- 728.000 Dateien, darunter 192.000 PDFs, 93.000 Excel-Tabellen, 93.000 PowerPoint-Präsentationen und 58.000 Word-Dokumente
- 57.000 Benutzerkonten für jeden Mitarbeiter auf der Plattform
- 384.000 KI-Assistenten und 94.000 Arbeitsbereiche, die die organisatorische KI-Struktur des Unternehmens offenlegten
- 95 Systemprompts und KI-Modellkonfigurationen über 12 Modelltypen hinweg, die Schutzmaßnahmen und Bereitstellungsdetails zeigten
- 3,68 Millionen RAG-Dokumentenblöcke mit jahrzehntelanger proprietärer McKinsey-Forschung und -Methoden
- 1,1 Millionen Dateien und 217.000 Agentennachrichten, die über externe KI-APIs flossen, einschließlich 266.000+ OpenAI-Vector-Stores
Kritische entdeckte Schwachstellen
Die SQL-Injection war nicht nur lesend. Lillis Systemprompts – die steuern, wie sich die KI verhält, welche Schutzmaßnahmen sie befolgt und wie sie Quellen zitiert – wurden in derselben Datenbank gespeichert. Ein Angreifer mit Schreibzugriff hätte:
- Prompts lautlos mit einer einzigen UPDATE-Anweisung in einem einzigen HTTP-Aufruf umschreiben können
- Ratschläge vergiftet, indem Finanzmodelle, strategische Empfehlungen oder Risikobewertungen verändert wurden
- Datenexfiltration ermöglicht, indem die KI angewiesen wurde, vertrauliche Informationen in Antworten einzubetten
- Schutzmaßnahmen entfernt, um interne Daten preiszugeben oder Zugriffskontrollen zu ignorieren
Der Agent verknüpfte die SQL-Injection außerdem mit einer IDOR-Schwachstelle, um die Suchverläufe einzelner Mitarbeiter auszulesen und offenzulegen, woran Menschen aktiv arbeiteten.
Implikationen für die KI-Sicherheit
Dieser Fall zeigt, wie KI-Agenten autonom Ziele auswählen und angreifen können, wobei der CodeWall-Agent den gesamten Prozess ohne menschliche Beteiligung abschloss. Die Bedrohungslandschaft verschiebt sich, da KI-Agenten nun Schwachstellen finden können, die traditionelle Tools übersehen, insbesondere in komplexen Systemen, wo JSON-Schlüsselverkettung SQL-Injection-Möglichkeiten schafft, die nicht standardmäßigen Mustern folgen.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Open-Source RAG-Angriffs- und Verteidigungslabor für lokale ChromaDB + LM Studio Stacks
Ein Open-Source-Labor misst die Wirksamkeit von RAG-Wissensbasisvergiftungen auf Standard-Lokalsetups mit ChromaDB und LM Studio und zeigt eine Erfolgsquote von 95 % auf ungeschützten Systemen sowie die Bewertung praktischer Abwehrmaßnahmen.

Sandboxing lokaler KI-Agenten mit Firecracker MicroVMs
Ein Entwickler hat eine Sandbox erstellt, die die Ausführung von KI-Agenten in Firecracker-Mikro-VMs isoliert, die Alpine Linux ausführen. Dadurch werden Sicherheitsbedenken bezüglich Agenten, die Befehle direkt auf dem Host-Rechner ausführen, adressiert. Das Setup nutzt vsock für die Kommunikation und verbindet sich über MCP mit Claude Desktop.

Bedrohungsdaten aus 91.000 KI-Agenten-Interaktionen: Tool-Missbrauch um 6,4 % gestiegen, neue multimodale Angriffe
Eine Analyse von 91.284 KI-Agenten-Interaktionen aus dem Februar 2026 zeigt, dass der Missbrauch von Tools/Befehlen um 6,4 % auf 14,5 % gestiegen ist, wobei die Eskalation von Tool-Ketten das vorherrschende Muster darstellt. RAG-Poisoning hat sich auf Metadaten-Angriffe verlagert (12,0 %), und multimodale Injektionen über Bilder/PDFs sind mit 2,3 % neu aufgetreten.

Sicherheits-Benchmark: 10 LLMs mit 211 adversarischen Angriffen getestet
Ein Sicherheitsforscher testete 10 LLMs mit 211 adversarischen Angriffen und stellte fest, dass die Extraktionsresistenz durchschnittlich bei 85 % liegt, während die Injektionsresistenz nur durchschnittlich 46,2 % beträgt. Jedes Modell versagte bei Delimiter-, Distraktor- und Style-Injection-Angriffen vollständig.