Terrain de jeu open-source pour la mise à l'épreuve d'agents IA avec des exploits publiés

✍️ OpenClawRadar📅 Publié: March 16, 2026🔗 Source
Terrain de jeu open-source pour la mise à l'épreuve d'agents IA avec des exploits publiés
Ad

Ce que c'est

Fabraix Playground est un environnement open-source pour tester les agents IA via des défis adversariaux. Il a commencé comme un outil interne pour tester les garde-fous mais a été rendu open-source pour obtenir des perspectives variées sur les vulnérabilités.

Comment ça fonctionne

Chaque défi déploie un agent IA en direct avec :

  • Un persona spécifique
  • Un ensemble d'outils réels (recherche web, navigation, et plus)
  • Quelque chose qu'il a pour instruction de protéger
  • Des invites système entièrement visibles

L'objectif est de trouver des moyens de contourner les garde-fous. Lorsque quelqu'un réussit, la technique gagnante est publiée — y compris l'approche, le raisonnement et les transcriptions complètes de la conversation.

Structure du projet

  • /src — Interface React (TypeScript, Vite, Tailwind)
  • /challenges — chaque configuration de défi et invite système, versionnées et ouvertes
  • L'évaluation des garde-fous s'exécute côté serveur pour éviter toute manipulation côté client
  • Le runtime de l'agent est en cours d'ouverture en accès libre séparément
Ad

Développement local

Pour exécuter localement :

npm install
npm run dev

Cela se connecte à l'API en direct par défaut. Pour développer avec un backend local :

VITE_API_URL=http://localhost:8000/v1 npm run dev

Exemples de défis

Le premier défi était de faire appeler à un agent un outil qu'on lui a dit de ne jamais appeler. Quelqu'un a réussi en environ 60 secondes sans demander directement le secret. Le prochain défi se concentre sur l'exfiltration de données avec des défenses plus difficiles.

La communauté détermine ce qui est testé : n'importe qui peut proposer un défi (scénario, agent, objectif), la communauté vote, et le défi le plus voté devient actif avec un compte à rebours. Le contournement le plus rapide gagne.

Détails techniques

Le projet est construit avec TypeScript (76,5 %), CSS (22,2 %) et d'autres langages (1,3 %). Il utilise la licence MIT et a une communauté Discord pour discuter des techniques et partager des approches.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Vérificateur SBOM hors ligne pour OpenClaw détecte les compétences empoisonnées en moins de 0,2 secondes
Security

Vérificateur SBOM hors ligne pour OpenClaw détecte les compétences empoisonnées en moins de 0,2 secondes

Un développeur a créé un outil de vérification hors ligne des SBOM en Rust qui a détecté une compétence OpenClaw empoisonnée exfiltrant des clés SSH, la vérification s'achevant en moins de 0,2 seconde sans accès à Internet.

OpenClawRadar
llm-hasher : Détection et Tokenisation Locales des PII pour les Flux de Travail LLM Hybrides
Security

llm-hasher : Détection et Tokenisation Locales des PII pour les Flux de Travail LLM Hybrides

llm-hasher est un outil qui détecte les informations personnellement identifiables localement en utilisant Ollama avant que les données n'atteignent des LLM externes comme OpenAI ou Claude, tokenise les PII et restaure les originaux après traitement. Il utilise des expressions régulières pour les types de données structurées et un LLM local pour la détection contextuelle, avec un stockage chiffré pour les correspondances.

OpenClawRadar
CVE-2026-39861 de Claude Code : Échappement du bac à sable via suivi de lien symbolique
Security

CVE-2026-39861 de Claude Code : Échappement du bac à sable via suivi de lien symbolique

Une vulnérabilité de haute sévérité dans le bac à sable de Claude Code permet l'écriture arbitraire de fichiers en dehors de l'espace de travail via le suivi de liens symboliques, pouvant conduire à l'exécution de code.

OpenClawRadar
Alerte de sécurité pour les instances locales d'OpenClaw sans bac à sable
Security

Alerte de sécurité pour les instances locales d'OpenClaw sans bac à sable

Un post Reddit avertit que l'exécution d'instances OpenClaw vanilla localement sans isolation appropriée peut entraîner l'exposition de clés API, la suppression accidentelle de fichiers et des fuites de données. La source recommande de sandboxer les outils bash ou d'utiliser un service géré.

OpenClawRadar