Sicherheits-Benchmark: 10 LLMs mit 211 adversarischen Angriffen getestet

✍️ OpenClawRadar📅 Veröffentlicht: 8. März 2026🔗 Source
Sicherheits-Benchmark: 10 LLMs mit 211 adversarischen Angriffen getestet
Ad

Ein Sicherheitsforscher führte einen systematischen Test von 10 verschiedenen LLMs mit 211 adversarischen Sicherheitsangriffen durch, um zu bewerten, wie sie Angriffe in realen Szenarien handhaben.

Testmethodik

Der Forscher verwendete einen standardisierten Aufbau mit Temperatur 0 und identischen API-Aufrufen für jedes Modell. Der Test umfasste 82 Extraktionsangriffe (Versuche, System-Prompts zu stehlen) und 109 Injektionsangriffe (Versuche, das Modellverhalten zu übernehmen). Ein Honeypot-System-Prompt mit gefälschten PII, SSH-Schlüsseln und API-Zugangsdaten wurde als Köder verwendet.

Wichtige Ergebnisse

  • Extraktionsresistenz ist größtenteils gelöst: Die meisten Modelle sind recht gut darin, Angriffe vom Typ "Wiederhole deinen System-Prompt" zu blockieren. Der Durchschnitt über alle Modelle liegt bei etwa 85 %.
  • Injektionsresistenz ist nicht gelöst: Der Durchschnitt liegt bei 46,2 %, was bedeutet, dass mehr als die Hälfte der Injektionsangriffe insgesamt erfolgreich sind.
  • Allgemeine Fehler: Jedes einzelne Modell versagte bei Delimiter-Angriffen, Distraktor-Injection und Style-Injection. 0 % Resistenz in diesen Kategorien bei allen 10 Modellen.
  • Wirkungslose Angriffsmuster: Jedes Modell widerstand Payload-Splitting und Typo-Evasion zu 100 %.
Ad

Modellspezifische Ergebnisse

  • Claude Opus: Erzielte 72,7 % bei der Injektionsresistenz, das beste aller getesteten Modelle. Bedeutet immer noch, dass mehr als jeder vierte Injektionsangriff funktioniert.
  • GPT-5.4: Hat perfekte Extraktions- und Boundary-Werte, aber nur 50 % Injektionsresistenz.
  • GPT-5.3 Codex: Das Modell hinter Codex CLI, das Code auf Ihrem Computer ausführt, erzielte 34,5 % bei Injektion. 2 von 3 Injektionsversuchen sind erfolgreich.
  • DeepSeek V3.2: Erzielte 17,4 % bei Injektion, praktisch keine Resistenz.
  • Qwen 3.5 API vs lokal: Fast identische Extraktion (81,6 % vs 81,7 %), aber die lokale Version ist schlechter bei Injektion (46,9 % vs 29,8 %) und viel schlechter bei der Boundary-Integrität (59,8 % vs 44,6 %). Lokales Ausführen macht es nicht weniger fähig, Extraktion zu blockieren, macht es aber anfälliger für Injektion.

Warum Injektion wichtig ist

Extraktion bedeutet, dass jemand Ihren System-Prompt stiehlt – schlecht, aber behebbar. Injektion bedeutet, dass jemand übernimmt, was Ihr Agent tut. Wenn Ihr Agent Werkzeugzugriff, Dateisystemzugriff hat oder API-Aufrufe tätigen kann, kann eine erfolgreiche Injektion zu Datenexfiltration, Dateilöschung oder Schlimmerem führen. Derzeit blockiert das beste Modell der Welt nur 73 % der Injektionsversuche.

Die vollständige Methodik und Ergebnisse sind öffentlich unter agentseal.org/benchmark. Der Test-Prompt ist ebenfalls veröffentlicht, sodass jeder die Ergebnisse reproduzieren kann.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claudes Sicherheitsüberprüfungsbefehl hat Einschränkungen für Produktionssysteme
Sicherheit

Claudes Sicherheitsüberprüfungsbefehl hat Einschränkungen für Produktionssysteme

Ein Entwickler fand Claudes Sicherheitsüberprüfungsbefehl hilfreich für grundlegende Validierungen wie MIME-Typen und Dateigrößenbeschränkungen, jedoch unzureichend für die Produktionshärtung gegen ausgeklügelte Bedrohungen. Die Lösung erforderte eine zweiwöchige Architekturüberholung, bei der die Dateiverarbeitung in einen eingeschränkten Worker mit begrenzten Berechtigungen ausgelagert wurde.

OpenClawRadar
OpenClaw SOC-Agenten-Integration für SIEM-Home-Lab-Bedrohungsjagd
Sicherheit

OpenClaw SOC-Agenten-Integration für SIEM-Home-Lab-Bedrohungsjagd

Ein Reddit-Nutzer teilt sein Open-Source-SIEM-Setup namens Red Threat Redemption auf Debian 13, das Elasticsearch, Kibana, Wazuh, Zeek und pfSense mit Suricata integriert und dann einen KI-Agenten für automatisierte Bedrohungskorrelation, -jagd und -alarmpriorisierung hinzufügt.

OpenClawRadar
Claude Code führt nach Widerruf Protokollsitzungen fort, Nutzer berichtet von 2-wöchiger Support-Stille
Sicherheit

Claude Code führt nach Widerruf Protokollsitzungen fort, Nutzer berichtet von 2-wöchiger Support-Stille

Ein Nutzer von Claude Code berichtet, dass Sitzungsprotokolle weiterhin erschienen, nachdem der Zugriff widerrufen wurde, und der Anthropic-Support zwei Wochen lang nicht reagierte. Die Protokolle enthielten Bereiche wie user:file_upload, user:ccr_inference und user:sessions:claude_code.

OpenClawRadar
Abgrenzungsverteidigung steigert Gemma 4 von 21% auf 100% Prompt-Injection-Verteidigung in Benchmark mit über 6100 Tests
Sicherheit

Abgrenzungsverteidigung steigert Gemma 4 von 21% auf 100% Prompt-Injection-Verteidigung in Benchmark mit über 6100 Tests

Ein Benchmark testete 15 Modelle mit 7 Angriffsarten (über 6100 Tests) unter Verwendung zufälliger Trennzeichen um unvertrauenswürdige Inhalte. Gemma 4 E4B verbesserte sich von 21,6 % auf 100 % Abwehrrate mit Trennzeichen + strikter Anweisung.

OpenClawRadar