Open-Source-Spielplatz für Red-Teaming von KI-Agenten mit veröffentlichten Exploits

Was das ist
Fabraix Playground ist eine Open-Source-Umgebung für Red-Teaming von KI-Agenten durch adversarische Herausforderungen. Es begann als internes Werkzeug zum Testen von Schutzmaßnahmen, wurde aber als Open Source veröffentlicht, um vielfältige Perspektiven auf Schwachstellen zu erhalten.
Wie es funktioniert
Jede Herausforderung setzt einen Live-KI-Agenten mit folgenden Eigenschaften ein:
- Einer spezifischen Persona
- Einer Reihe echter Werkzeuge (Websuche, Browsing und mehr)
- Etwas, das er schützen soll
- Vollständig sichtbaren Systemprompts
Das Ziel ist es, Wege an den Schutzmaßnahmen vorbei zu finden. Wenn jemand erfolgreich ist, wird die gewinnende Technik veröffentlicht – einschließlich Ansatz, Argumentation und vollständiger Gesprächsprotokolle.
Projektstruktur
/src— React-Frontend (TypeScript, Vite, Tailwind)/challenges— jede Herausforderungskonfiguration und Systemprompts, versioniert und offen- Die Bewertung der Schutzmaßnahmen läuft serverseitig, um Client-seitige Manipulation zu verhindern
- Die Agentenlaufzeit wird separat als Open Source veröffentlicht
Lokale Entwicklung
Für den lokalen Betrieb:
npm install
npm run devDies verbindet standardmäßig mit der Live-API. Für die Entwicklung mit einem lokalen Backend:
VITE_API_URL=http://localhost:8000/v1 npm run devHerausforderungsbeispiele
Die erste Herausforderung bestand darin, einen Agenten dazu zu bringen, ein Werkzeug aufzurufen, das er niemals aufrufen sollte. Jemand schaffte dies in etwa 60 Sekunden, ohne direkt nach dem Geheimnis zu fragen. Die nächste Herausforderung konzentriert sich auf Datenextraktion mit stärkeren Abwehrmaßnahmen.
Die Community bestimmt, was getestet wird: Jeder kann eine Herausforderung vorschlagen (Szenario, Agent, Ziel), die Community stimmt ab, und die bestbewertete Herausforderung geht mit einer tickenden Uhr live. Der schnellste erfolgreiche Jailbreak gewinnt.
Technische Details
Das Projekt ist mit TypeScript (76,5 %), CSS (22,2 %) und anderen Sprachen (1,3 %) erstellt. Es verwendet die MIT-Lizenz und hat eine Discord-Community zum Diskutieren von Techniken und Austausch von Ansätzen.
📖 Read the full source: HN AI Agents
👀 Siehe auch

OpenClaw-Benutzer teilt Strategie zum Ausgleich zwischen Agentenautonomie und Websicherheit
Ein OpenClaw-Benutzer beschreibt seine aktuelle Herausforderung: das Gleichgewicht zwischen Agentenautonomie und Sicherheit, insbesondere in Bezug auf Webzugriff und Prompt-Injection-Risiken. Er schlägt eine Lösung vor, die 'geringes Vertrauen' und 'hohes Vertrauen' in Agentensegmenten mit einer menschlichen Genehmigungsstufe verwendet.

Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude
Ein Angriff, der über drei Nachrichten eine fiktive Regel aufstellt und dann einen Geist beschwört, um sie zu aktivieren – jede Nachricht für sich genommen harmlos. Das Muster konvergiert unabhängig voneinander bei Angreifern.

Endo Familiar: Objektfähigkeits-Sandbox für KI-Agenten
Endo Familiar implementiert objektfähigkeitsbasierte Sicherheit für KI-Agenten: Agenten starten ohne Berechtigungen, erhalten nur explizite Referenzen auf bestimmte Dateien oder Verzeichnisse und können in Sandbox-Code engere Fähigkeiten ableiten.

Vom Bauernhof zum Code: Wie ein Bauer eine Open-Source-Laufzeitverteidigung für OpenClaw geschaffen hat.
Erfahren Sie, wie ein Landwirt ohne vorherige Entwicklungserfahrung in nur 12 Stunden eine Open-Source-Laufzeitabwehr für OpenClaw mit mehreren KI-Coding-Agenten erstellt hat.