Sicherheits-Benchmark: 10 LLMs mit 211 adversarischen Angriffen getestet

Ein Sicherheitsforscher führte einen systematischen Test von 10 verschiedenen LLMs mit 211 adversarischen Sicherheitsangriffen durch, um zu bewerten, wie sie Angriffe in realen Szenarien handhaben.
Testmethodik
Der Forscher verwendete einen standardisierten Aufbau mit Temperatur 0 und identischen API-Aufrufen für jedes Modell. Der Test umfasste 82 Extraktionsangriffe (Versuche, System-Prompts zu stehlen) und 109 Injektionsangriffe (Versuche, das Modellverhalten zu übernehmen). Ein Honeypot-System-Prompt mit gefälschten PII, SSH-Schlüsseln und API-Zugangsdaten wurde als Köder verwendet.
Wichtige Ergebnisse
- Extraktionsresistenz ist größtenteils gelöst: Die meisten Modelle sind recht gut darin, Angriffe vom Typ "Wiederhole deinen System-Prompt" zu blockieren. Der Durchschnitt über alle Modelle liegt bei etwa 85 %.
- Injektionsresistenz ist nicht gelöst: Der Durchschnitt liegt bei 46,2 %, was bedeutet, dass mehr als die Hälfte der Injektionsangriffe insgesamt erfolgreich sind.
- Allgemeine Fehler: Jedes einzelne Modell versagte bei Delimiter-Angriffen, Distraktor-Injection und Style-Injection. 0 % Resistenz in diesen Kategorien bei allen 10 Modellen.
- Wirkungslose Angriffsmuster: Jedes Modell widerstand Payload-Splitting und Typo-Evasion zu 100 %.
Modellspezifische Ergebnisse
- Claude Opus: Erzielte 72,7 % bei der Injektionsresistenz, das beste aller getesteten Modelle. Bedeutet immer noch, dass mehr als jeder vierte Injektionsangriff funktioniert.
- GPT-5.4: Hat perfekte Extraktions- und Boundary-Werte, aber nur 50 % Injektionsresistenz.
- GPT-5.3 Codex: Das Modell hinter Codex CLI, das Code auf Ihrem Computer ausführt, erzielte 34,5 % bei Injektion. 2 von 3 Injektionsversuchen sind erfolgreich.
- DeepSeek V3.2: Erzielte 17,4 % bei Injektion, praktisch keine Resistenz.
- Qwen 3.5 API vs lokal: Fast identische Extraktion (81,6 % vs 81,7 %), aber die lokale Version ist schlechter bei Injektion (46,9 % vs 29,8 %) und viel schlechter bei der Boundary-Integrität (59,8 % vs 44,6 %). Lokales Ausführen macht es nicht weniger fähig, Extraktion zu blockieren, macht es aber anfälliger für Injektion.
Warum Injektion wichtig ist
Extraktion bedeutet, dass jemand Ihren System-Prompt stiehlt – schlecht, aber behebbar. Injektion bedeutet, dass jemand übernimmt, was Ihr Agent tut. Wenn Ihr Agent Werkzeugzugriff, Dateisystemzugriff hat oder API-Aufrufe tätigen kann, kann eine erfolgreiche Injektion zu Datenexfiltration, Dateilöschung oder Schlimmerem führen. Derzeit blockiert das beste Modell der Welt nur 73 % der Injektionsversuche.
Die vollständige Methodik und Ergebnisse sind öffentlich unter agentseal.org/benchmark. Der Test-Prompt ist ebenfalls veröffentlicht, sodass jeder die Ergebnisse reproduzieren kann.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claudes Sicherheitsüberprüfungsbefehl hat Einschränkungen für Produktionssysteme
Ein Entwickler fand Claudes Sicherheitsüberprüfungsbefehl hilfreich für grundlegende Validierungen wie MIME-Typen und Dateigrößenbeschränkungen, jedoch unzureichend für die Produktionshärtung gegen ausgeklügelte Bedrohungen. Die Lösung erforderte eine zweiwöchige Architekturüberholung, bei der die Dateiverarbeitung in einen eingeschränkten Worker mit begrenzten Berechtigungen ausgelagert wurde.

OpenClaw SOC-Agenten-Integration für SIEM-Home-Lab-Bedrohungsjagd
Ein Reddit-Nutzer teilt sein Open-Source-SIEM-Setup namens Red Threat Redemption auf Debian 13, das Elasticsearch, Kibana, Wazuh, Zeek und pfSense mit Suricata integriert und dann einen KI-Agenten für automatisierte Bedrohungskorrelation, -jagd und -alarmpriorisierung hinzufügt.

Claude Code führt nach Widerruf Protokollsitzungen fort, Nutzer berichtet von 2-wöchiger Support-Stille
Ein Nutzer von Claude Code berichtet, dass Sitzungsprotokolle weiterhin erschienen, nachdem der Zugriff widerrufen wurde, und der Anthropic-Support zwei Wochen lang nicht reagierte. Die Protokolle enthielten Bereiche wie user:file_upload, user:ccr_inference und user:sessions:claude_code.

Abgrenzungsverteidigung steigert Gemma 4 von 21% auf 100% Prompt-Injection-Verteidigung in Benchmark mit über 6100 Tests
Ein Benchmark testete 15 Modelle mit 7 Angriffsarten (über 6100 Tests) unter Verwendung zufälliger Trennzeichen um unvertrauenswürdige Inhalte. Gemma 4 E4B verbesserte sich von 21,6 % auf 100 % Abwehrrate mit Trennzeichen + strikter Anweisung.