Red-Teaming für KI-Agenten: Open-Source-Exploits

Was das ist

Fabraix Playground ist eine Open-Source-Umgebung für Red-Teaming von KI-Agenten durch adversarische Herausforderungen. Es begann als internes Werkzeug zum Testen von Schutzmaßnahmen, wurde aber als Open Source veröffentlicht, um vielfältige Perspektiven auf Schwachstellen zu erhalten.

Wie es funktioniert

Jede Herausforderung setzt einen Live-KI-Agenten mit folgenden Eigenschaften ein:

Einer spezifischen Persona
Einer Reihe echter Werkzeuge (Websuche, Browsing und mehr)
Etwas, das er schützen soll
Vollständig sichtbaren Systemprompts

Das Ziel ist es, Wege an den Schutzmaßnahmen vorbei zu finden. Wenn jemand erfolgreich ist, wird die gewinnende Technik veröffentlicht – einschließlich Ansatz, Argumentation und vollständiger Gesprächsprotokolle.

Projektstruktur

/src — React-Frontend (TypeScript, Vite, Tailwind)
/challenges — jede Herausforderungskonfiguration und Systemprompts, versioniert und offen
Die Bewertung der Schutzmaßnahmen läuft serverseitig, um Client-seitige Manipulation zu verhindern
Die Agentenlaufzeit wird separat als Open Source veröffentlicht

Lokale Entwicklung

Für den lokalen Betrieb:

npm install
npm run dev

Dies verbindet standardmäßig mit der Live-API. Für die Entwicklung mit einem lokalen Backend:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Herausforderungsbeispiele

Die erste Herausforderung bestand darin, einen Agenten dazu zu bringen, ein Werkzeug aufzurufen, das er niemals aufrufen sollte. Jemand schaffte dies in etwa 60 Sekunden, ohne direkt nach dem Geheimnis zu fragen. Die nächste Herausforderung konzentriert sich auf Datenextraktion mit stärkeren Abwehrmaßnahmen.

Die Community bestimmt, was getestet wird: Jeder kann eine Herausforderung vorschlagen (Szenario, Agent, Ziel), die Community stimmt ab, und die bestbewertete Herausforderung geht mit einer tickenden Uhr live. Der schnellste erfolgreiche Jailbreak gewinnt.

Technische Details

Das Projekt ist mit TypeScript (76,5 %), CSS (22,2 %) und anderen Sprachen (1,3 %) erstellt. Es verwendet die MIT-Lizenz und hat eine Discord-Community zum Diskutieren von Techniken und Austausch von Ansätzen.

📖 Read the full source: HN AI Agents

Open-Source-Spielplatz für Red-Teaming von KI-Agenten mit veröffentlichten Exploits

Was das ist

Wie es funktioniert

Projektstruktur

Lokale Entwicklung

Herausforderungsbeispiele

Technische Details

👀 Siehe auch

SupraWall MCP Plugin blockiert Prompt-Injection-Angriffe auf lokale KI-Agenten

Meta-Sicherheitsvorfall verursacht durch fehlerhaften KI-Agenten, der ungenaue technische Ratschläge erteilte

OpenClaw-Benutzer teilt Strategie zum Ausgleich zwischen Agentenautonomie und Websicherheit

GitHub-Repository dokumentiert 16 Prompt-Injection-Techniken und Abwehrstrategien für öffentliche KI-Chats