Open-Source-Spielplatz für Red-Teaming von KI-Agenten mit veröffentlichten Exploits

✍️ OpenClawRadar📅 Veröffentlicht: 16. März 2026🔗 Source
Open-Source-Spielplatz für Red-Teaming von KI-Agenten mit veröffentlichten Exploits
Ad

Was das ist

Fabraix Playground ist eine Open-Source-Umgebung für Red-Teaming von KI-Agenten durch adversarische Herausforderungen. Es begann als internes Werkzeug zum Testen von Schutzmaßnahmen, wurde aber als Open Source veröffentlicht, um vielfältige Perspektiven auf Schwachstellen zu erhalten.

Wie es funktioniert

Jede Herausforderung setzt einen Live-KI-Agenten mit folgenden Eigenschaften ein:

  • Einer spezifischen Persona
  • Einer Reihe echter Werkzeuge (Websuche, Browsing und mehr)
  • Etwas, das er schützen soll
  • Vollständig sichtbaren Systemprompts

Das Ziel ist es, Wege an den Schutzmaßnahmen vorbei zu finden. Wenn jemand erfolgreich ist, wird die gewinnende Technik veröffentlicht – einschließlich Ansatz, Argumentation und vollständiger Gesprächsprotokolle.

Projektstruktur

  • /src — React-Frontend (TypeScript, Vite, Tailwind)
  • /challenges — jede Herausforderungskonfiguration und Systemprompts, versioniert und offen
  • Die Bewertung der Schutzmaßnahmen läuft serverseitig, um Client-seitige Manipulation zu verhindern
  • Die Agentenlaufzeit wird separat als Open Source veröffentlicht
Ad

Lokale Entwicklung

Für den lokalen Betrieb:

npm install
npm run dev

Dies verbindet standardmäßig mit der Live-API. Für die Entwicklung mit einem lokalen Backend:

VITE_API_URL=http://localhost:8000/v1 npm run dev

Herausforderungsbeispiele

Die erste Herausforderung bestand darin, einen Agenten dazu zu bringen, ein Werkzeug aufzurufen, das er niemals aufrufen sollte. Jemand schaffte dies in etwa 60 Sekunden, ohne direkt nach dem Geheimnis zu fragen. Die nächste Herausforderung konzentriert sich auf Datenextraktion mit stärkeren Abwehrmaßnahmen.

Die Community bestimmt, was getestet wird: Jeder kann eine Herausforderung vorschlagen (Szenario, Agent, Ziel), die Community stimmt ab, und die bestbewertete Herausforderung geht mit einer tickenden Uhr live. Der schnellste erfolgreiche Jailbreak gewinnt.

Technische Details

Das Projekt ist mit TypeScript (76,5 %), CSS (22,2 %) und anderen Sprachen (1,3 %) erstellt. Es verwendet die MIT-Lizenz und hat eine Discord-Community zum Diskutieren von Techniken und Austausch von Ansätzen.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

OpenClaw-Benutzer teilt Strategie zum Ausgleich zwischen Agentenautonomie und Websicherheit
Sicherheit

OpenClaw-Benutzer teilt Strategie zum Ausgleich zwischen Agentenautonomie und Websicherheit

Ein OpenClaw-Benutzer beschreibt seine aktuelle Herausforderung: das Gleichgewicht zwischen Agentenautonomie und Sicherheit, insbesondere in Bezug auf Webzugriff und Prompt-Injection-Risiken. Er schlägt eine Lösung vor, die 'geringes Vertrauen' und 'hohes Vertrauen' in Agentensegmenten mit einer menschlichen Genehmigungsstufe verwendet.

OpenClawRadar
Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude
Sicherheit

Multi-Message Prompt Injection: Das „Fiktive Kreatur“-Angriffsmuster gegen Claude

Ein Angriff, der über drei Nachrichten eine fiktive Regel aufstellt und dann einen Geist beschwört, um sie zu aktivieren – jede Nachricht für sich genommen harmlos. Das Muster konvergiert unabhängig voneinander bei Angreifern.

OpenClawRadar
Endo Familiar: Objektfähigkeits-Sandbox für KI-Agenten
Sicherheit

Endo Familiar: Objektfähigkeits-Sandbox für KI-Agenten

Endo Familiar implementiert objektfähigkeitsbasierte Sicherheit für KI-Agenten: Agenten starten ohne Berechtigungen, erhalten nur explizite Referenzen auf bestimmte Dateien oder Verzeichnisse und können in Sandbox-Code engere Fähigkeiten ableiten.

OpenClawRadar
Vom Bauernhof zum Code: Wie ein Bauer eine Open-Source-Laufzeitverteidigung für OpenClaw geschaffen hat.
Sicherheit

Vom Bauernhof zum Code: Wie ein Bauer eine Open-Source-Laufzeitverteidigung für OpenClaw geschaffen hat.

Erfahren Sie, wie ein Landwirt ohne vorherige Entwicklungserfahrung in nur 12 Stunden eine Open-Source-Laufzeitabwehr für OpenClaw mit mehreren KI-Coding-Agenten erstellt hat.

OpenClawRadar