LLM Sicherheit: 10 Modelle gegen 211 Angriffe getestet

Ein Sicherheitsforscher führte einen systematischen Test von 10 verschiedenen LLMs mit 211 adversarischen Sicherheitsangriffen durch, um zu bewerten, wie sie Angriffe in realen Szenarien handhaben.

Testmethodik

Der Forscher verwendete einen standardisierten Aufbau mit Temperatur 0 und identischen API-Aufrufen für jedes Modell. Der Test umfasste 82 Extraktionsangriffe (Versuche, System-Prompts zu stehlen) und 109 Injektionsangriffe (Versuche, das Modellverhalten zu übernehmen). Ein Honeypot-System-Prompt mit gefälschten PII, SSH-Schlüsseln und API-Zugangsdaten wurde als Köder verwendet.

Wichtige Ergebnisse

Extraktionsresistenz ist größtenteils gelöst: Die meisten Modelle sind recht gut darin, Angriffe vom Typ "Wiederhole deinen System-Prompt" zu blockieren. Der Durchschnitt über alle Modelle liegt bei etwa 85 %.
Injektionsresistenz ist nicht gelöst: Der Durchschnitt liegt bei 46,2 %, was bedeutet, dass mehr als die Hälfte der Injektionsangriffe insgesamt erfolgreich sind.
Allgemeine Fehler: Jedes einzelne Modell versagte bei Delimiter-Angriffen, Distraktor-Injection und Style-Injection. 0 % Resistenz in diesen Kategorien bei allen 10 Modellen.
Wirkungslose Angriffsmuster: Jedes Modell widerstand Payload-Splitting und Typo-Evasion zu 100 %.

Modellspezifische Ergebnisse

Claude Opus: Erzielte 72,7 % bei der Injektionsresistenz, das beste aller getesteten Modelle. Bedeutet immer noch, dass mehr als jeder vierte Injektionsangriff funktioniert.
GPT-5.4: Hat perfekte Extraktions- und Boundary-Werte, aber nur 50 % Injektionsresistenz.
GPT-5.3 Codex: Das Modell hinter Codex CLI, das Code auf Ihrem Computer ausführt, erzielte 34,5 % bei Injektion. 2 von 3 Injektionsversuchen sind erfolgreich.
DeepSeek V3.2: Erzielte 17,4 % bei Injektion, praktisch keine Resistenz.
Qwen 3.5 API vs lokal: Fast identische Extraktion (81,6 % vs 81,7 %), aber die lokale Version ist schlechter bei Injektion (46,9 % vs 29,8 %) und viel schlechter bei der Boundary-Integrität (59,8 % vs 44,6 %). Lokales Ausführen macht es nicht weniger fähig, Extraktion zu blockieren, macht es aber anfälliger für Injektion.

Warum Injektion wichtig ist

Extraktion bedeutet, dass jemand Ihren System-Prompt stiehlt – schlecht, aber behebbar. Injektion bedeutet, dass jemand übernimmt, was Ihr Agent tut. Wenn Ihr Agent Werkzeugzugriff, Dateisystemzugriff hat oder API-Aufrufe tätigen kann, kann eine erfolgreiche Injektion zu Datenexfiltration, Dateilöschung oder Schlimmerem führen. Derzeit blockiert das beste Modell der Welt nur 73 % der Injektionsversuche.

Die vollständige Methodik und Ergebnisse sind öffentlich unter agentseal.org/benchmark. Der Test-Prompt ist ebenfalls veröffentlicht, sodass jeder die Ergebnisse reproduzieren kann.

📖 Read the full source: r/LocalLLaMA

Sicherheits-Benchmark: 10 LLMs mit 211 adversarischen Angriffen getestet

Testmethodik

Wichtige Ergebnisse

Modellspezifische Ergebnisse

Warum Injektion wichtig ist

👀 Siehe auch

Unabhängiger Bericht zu den Ergebnissen der MCP-Server-Zuverlässigkeit und -Sicherheit

Neuer Skill automatisiert OpenClaw-Sicherheitshärtung auf Remote-Servern

Cyberkriminelle wehren sich gegen KI-generierten Schrott in Untergrundforen

Clawndom: Ein Sicherheits-Hook für Claude Code zum Blockieren anfälliger npm-Pakete