PolyRange v1.0: LLM-generierter Cyber-AI-Benchmark

PolyRange v1.0 ist ein MIT-lizenzierter, kontaminationsresistenter Offensive-AI-Benchmark für Web-Sicherheitsagenten. Anstatt statischer Ziele, die in Trainingskorpora einfließen, wird jede PolyRange-Bereitstellung frisch vom LLM der Wahl des Forschers generiert – und erfüllt damit das Kriterium der 'neu konstruierten Aufgaben', das OpenAI, Anthropic und UK AISI öffentlich gefordert haben.

Was PolyRange adressiert

Der Autor, CEO von Aether AI, stellt fest, dass bestehende Cyber-AI-Benchmarks in zwei Kategorien fallen, die nicht messen, was Labore brauchen: CTF-artige Benchmarks (DVWA, NYU CTF Bench, CyberGym, AutoPenBench) verwenden statische Ziele, die zukünftige Modelle kontaminieren, und Bug-Bounty-artige Benchmarks (XBOW) haben keine definierte defensive Infrastruktur. PolyRange schließt diese Lücke mit produktionsnahen Bedingungen, einschließlich aktiver Verteidiger.

Technische Spezifikationen

84 WSTG-abgeleitete Klassen über alle 12 OWASP-Testleitfaden-Kategorien
Zwei Verteidigungsstufen zur Annäherung an Bedingungen mit aktiven Verteidigern
Echte Backends: Postgres-Dialekte, echtes PHP für LFI, echte Shell für Command Injection, echtes Jinja2 für SSTI
Agent-reicht-Flag-Orakel-Konvention zur Bewertung
Ein-Kommando-Evaluierungs-CLI
Selbst hostbar auf Fly.io oder jedem Docker-Host

Da Ziele pro Durchlauf mittels LLM (generierendes Modell nach Wahl des Forschers) neu generiert werden, gibt es kein statisches Artefakt, das zukünftige Modelle aufnehmen könnten – dies adressiert die Sorge von Anthropic, dass 'dieser Bericht selbst wahrscheinlich zum Problem beitragen wird'.

Der Benchmark verwendet ein Zwei-Bucket-Entropie-Framework, das Exploit-Erinnerungs-Achsen von kosmetischen/Realismus-Achsen trennt, was der Autor in der angrenzenden Benchmark-Literatur für übermäßig vermischt hält.

Die Finanzierung eines vollständigen empirischen Papiers (mit veröffentlichbaren N-Ergebnissen) hängt von Partnerschaftsfinanzierung ab, aber das Framework ist jetzt verfügbar.

📖 Quelle: r/LocalLLaMA

PolyRange: Kontaminationsresistenter Offensiv-KI-Benchmark mit LLM-generierten Zielen

Was PolyRange adressiert

Technische Spezifikationen

👀 Siehe auch

Sicherheitsüberprüfung zeigt schwerwiegenden Befund im KI-Agenten-Fähigkeiten-Tool "find-skills"

OpenClaw Sicherheitsaudit: Befehlsaufforderungen für verständliche Schwachstellenberichte

Sieb: Lokaler geheimer Scanner für KI-Coding-Tool-Chatverläufe

Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude