PolyRange: Kontaminationsresistenter Offensiv-KI-Benchmark mit LLM-generierten Zielen

PolyRange v1.0 ist ein MIT-lizenzierter, kontaminationsresistenter Offensive-AI-Benchmark für Web-Sicherheitsagenten. Anstatt statischer Ziele, die in Trainingskorpora einfließen, wird jede PolyRange-Bereitstellung frisch vom LLM der Wahl des Forschers generiert – und erfüllt damit das Kriterium der 'neu konstruierten Aufgaben', das OpenAI, Anthropic und UK AISI öffentlich gefordert haben.
Was PolyRange adressiert
Der Autor, CEO von Aether AI, stellt fest, dass bestehende Cyber-AI-Benchmarks in zwei Kategorien fallen, die nicht messen, was Labore brauchen: CTF-artige Benchmarks (DVWA, NYU CTF Bench, CyberGym, AutoPenBench) verwenden statische Ziele, die zukünftige Modelle kontaminieren, und Bug-Bounty-artige Benchmarks (XBOW) haben keine definierte defensive Infrastruktur. PolyRange schließt diese Lücke mit produktionsnahen Bedingungen, einschließlich aktiver Verteidiger.
Technische Spezifikationen
- 84 WSTG-abgeleitete Klassen über alle 12 OWASP-Testleitfaden-Kategorien
- Zwei Verteidigungsstufen zur Annäherung an Bedingungen mit aktiven Verteidigern
- Echte Backends: Postgres-Dialekte, echtes PHP für LFI, echte Shell für Command Injection, echtes Jinja2 für SSTI
- Agent-reicht-Flag-Orakel-Konvention zur Bewertung
- Ein-Kommando-Evaluierungs-CLI
- Selbst hostbar auf Fly.io oder jedem Docker-Host
Da Ziele pro Durchlauf mittels LLM (generierendes Modell nach Wahl des Forschers) neu generiert werden, gibt es kein statisches Artefakt, das zukünftige Modelle aufnehmen könnten – dies adressiert die Sorge von Anthropic, dass 'dieser Bericht selbst wahrscheinlich zum Problem beitragen wird'.
Der Benchmark verwendet ein Zwei-Bucket-Entropie-Framework, das Exploit-Erinnerungs-Achsen von kosmetischen/Realismus-Achsen trennt, was der Autor in der angrenzenden Benchmark-Literatur für übermäßig vermischt hält.
Die Finanzierung eines vollständigen empirischen Papiers (mit veröffentlichbaren N-Ergebnissen) hängt von Partnerschaftsfinanzierung ab, aber das Framework ist jetzt verfügbar.
📖 Quelle: r/LocalLLaMA
👀 Siehe auch

OpenClaw schließt kritische Rechteausweitung im /pair Genehmigungspfad
OpenClaw 2026.3.28 behebt eine kritische Sicherheitslücke (GHSA-hc5h-pmr3-3497), bei der der Befehl /pair approve es Benutzern mit Pairing-Berechtigungen ermöglichte, Geräteanfragen für umfangreichere Berechtigungen, einschließlich Administratorzugriff, zu genehmigen. Betroffene Versionen sind <= 2026.3.24.

OpenClaw Skill-Sicherheitsscanner: 7,6 % von 31.371 Skills als gefährlich eingestuft
Ein Entwickler hat ein Tool erstellt, das das gesamte ClawHub-Register durchsucht und festgestellt hat, dass 2.371 von 31.371 Skills gefährliche Muster wie Wallet-Drainer, Diebstahl von Zugangsdaten und Prompt-Injection enthalten. Das Tool bietet API-Zugang und Badges zur Überprüfung von Skills vor der Installation.

Malware: Ein Schwachstellen-Scanner für SKILL.md-Dateien, erstellt mit Claude Code
Ein Entwickler hat Malwar veröffentlicht, ein kostenloses Tool, das SKILL.md-Dateien auf bösartige Anweisungen überprüft. Es verwendet eine 4-stufige Pipeline mit einer Regel-Engine, einem URL-Crawler, einer LLM-Analyse und Threat Intelligence. Das Tool wurde vollständig mit Claude Code erstellt, nachdem der Entwickler besorgniserregende Muster wie Base64-Blobs und Anweisungen, die curl-Ausgaben an bash weiterleiten, in bestehenden Skills gefunden hatte.

NPM-Kompromittierung über Axios-Backdoor: Auswirkungen auf KI-Code-Agenten
Am 31. März 2026 kompromittierte ein mit der DVRK verbundener Bedrohungsakteur npm, indem er während eines 3-stündigen Zeitfensters manipulierte Versionen von Axios (1.14.1 und 0.30.4) veröffentlichte. Die Malware injizierte eine Abhängigkeit, die eine plattformspezifische RAT herunterlud, Zugangsdaten sammelte und sich selbst löschte. KI-Codierungsagenten wie Claude Code und Cursor waren aufgrund automatisierter npm-Installationen besonders anfällig.