Terrain de jeu open-source pour la mise à l'épreuve d'agents IA avec des exploits publiés

Ce que c'est
Fabraix Playground est un environnement open-source pour tester les agents IA via des défis adversariaux. Il a commencé comme un outil interne pour tester les garde-fous mais a été rendu open-source pour obtenir des perspectives variées sur les vulnérabilités.
Comment ça fonctionne
Chaque défi déploie un agent IA en direct avec :
- Un persona spécifique
- Un ensemble d'outils réels (recherche web, navigation, et plus)
- Quelque chose qu'il a pour instruction de protéger
- Des invites système entièrement visibles
L'objectif est de trouver des moyens de contourner les garde-fous. Lorsque quelqu'un réussit, la technique gagnante est publiée — y compris l'approche, le raisonnement et les transcriptions complètes de la conversation.
Structure du projet
/src— Interface React (TypeScript, Vite, Tailwind)/challenges— chaque configuration de défi et invite système, versionnées et ouvertes- L'évaluation des garde-fous s'exécute côté serveur pour éviter toute manipulation côté client
- Le runtime de l'agent est en cours d'ouverture en accès libre séparément
Développement local
Pour exécuter localement :
npm install
npm run devCela se connecte à l'API en direct par défaut. Pour développer avec un backend local :
VITE_API_URL=http://localhost:8000/v1 npm run devExemples de défis
Le premier défi était de faire appeler à un agent un outil qu'on lui a dit de ne jamais appeler. Quelqu'un a réussi en environ 60 secondes sans demander directement le secret. Le prochain défi se concentre sur l'exfiltration de données avec des défenses plus difficiles.
La communauté détermine ce qui est testé : n'importe qui peut proposer un défi (scénario, agent, objectif), la communauté vote, et le défi le plus voté devient actif avec un compte à rebours. Le contournement le plus rapide gagne.
Détails techniques
Le projet est construit avec TypeScript (76,5 %), CSS (22,2 %) et d'autres langages (1,3 %). Il utilise la licence MIT et a une communauté Discord pour discuter des techniques et partager des approches.
📖 Lire la source complète : HN AI Agents
👀 See Also

Vérificateur SBOM hors ligne pour OpenClaw détecte les compétences empoisonnées en moins de 0,2 secondes
Un développeur a créé un outil de vérification hors ligne des SBOM en Rust qui a détecté une compétence OpenClaw empoisonnée exfiltrant des clés SSH, la vérification s'achevant en moins de 0,2 seconde sans accès à Internet.

llm-hasher : Détection et Tokenisation Locales des PII pour les Flux de Travail LLM Hybrides
llm-hasher est un outil qui détecte les informations personnellement identifiables localement en utilisant Ollama avant que les données n'atteignent des LLM externes comme OpenAI ou Claude, tokenise les PII et restaure les originaux après traitement. Il utilise des expressions régulières pour les types de données structurées et un LLM local pour la détection contextuelle, avec un stockage chiffré pour les correspondances.

CVE-2026-39861 de Claude Code : Échappement du bac à sable via suivi de lien symbolique
Une vulnérabilité de haute sévérité dans le bac à sable de Claude Code permet l'écriture arbitraire de fichiers en dehors de l'espace de travail via le suivi de liens symboliques, pouvant conduire à l'exécution de code.

Alerte de sécurité pour les instances locales d'OpenClaw sans bac à sable
Un post Reddit avertit que l'exécution d'instances OpenClaw vanilla localement sans isolation appropriée peut entraîner l'exposition de clés API, la suppression accidentelle de fichiers et des fuites de données. La source recommande de sandboxer les outils bash ou d'utiliser un service géré.