Testez des agents IA avec Fabraix : défis adversariaux open-source

Ce que c'est

Fabraix Playground est un environnement open-source pour tester les agents IA via des défis adversariaux. Il a commencé comme un outil interne pour tester les garde-fous mais a été rendu open-source pour obtenir des perspectives variées sur les vulnérabilités.

Comment ça fonctionne

Chaque défi déploie un agent IA en direct avec :

Un persona spécifique
Un ensemble d'outils réels (recherche web, navigation, et plus)
Quelque chose qu'il a pour instruction de protéger
Des invites système entièrement visibles

L'objectif est de trouver des moyens de contourner les garde-fous. Lorsque quelqu'un réussit, la technique gagnante est publiée — y compris l'approche, le raisonnement et les transcriptions complètes de la conversation.

Structure du projet

/src — Interface React (TypeScript, Vite, Tailwind)
/challenges — chaque configuration de défi et invite système, versionnées et ouvertes
L'évaluation des garde-fous s'exécute côté serveur pour éviter toute manipulation côté client
Le runtime de l'agent est en cours d'ouverture en accès libre séparément

Développement local

Pour exécuter localement :

npm install
npm run dev

Cela se connecte à l'API en direct par défaut. Pour développer avec un backend local :

VITE_API_URL=http://localhost:8000/v1 npm run dev

Exemples de défis

Le premier défi était de faire appeler à un agent un outil qu'on lui a dit de ne jamais appeler. Quelqu'un a réussi en environ 60 secondes sans demander directement le secret. Le prochain défi se concentre sur l'exfiltration de données avec des défenses plus difficiles.

La communauté détermine ce qui est testé : n'importe qui peut proposer un défi (scénario, agent, objectif), la communauté vote, et le défi le plus voté devient actif avec un compte à rebours. Le contournement le plus rapide gagne.

Détails techniques

Le projet est construit avec TypeScript (76,5 %), CSS (22,2 %) et d'autres langages (1,3 %). Il utilise la licence MIT et a une communauté Discord pour discuter des techniques et partager des approches.

📖 Lire la source complète : HN AI Agents

Terrain de jeu open-source pour la mise à l'épreuve d'agents IA avec des exploits publiés

Ce que c'est

Comment ça fonctionne

Structure du projet

Développement local

Exemples de défis

Détails techniques

👀 See Also

L'Approche de Vitalik Buterin pour une Configuration Sécurisée de LLM Locale

Rapport indépendant sur la fiabilité du serveur MCP et les conclusions en matière de sécurité

L'expérience d'audit de sécurité montre que les performances des agents IA dépendent de l'accès aux connaissances.

La commande de revue de sécurité de Claude présente des limites pour les systèmes de production.