arifOS : Un noyau de gouvernance MCP de 15 millions de dollars pour la sécurité de l'outil OpenClaw

Ce que fait arifOS
arifOS est un noyau de gouvernance MCP minuscule qui se place entre les modèles OpenClaw et leurs outils/compétences. Le créateur, Arif (un géologue, pas un codeur), l'a construit pour empêcher les agents d'IA de "freestyler" avec ses outils sans les vérifications de sécurité appropriées.
Architecture principale
Le système utilise une métaphore simple : traiter le LLM comme un "cerveau dans un bocal", traiter les outils comme des "mains", et mettre un "VPS à 15$ au milieu comme videur". Chaque appel d'outil OpenClaw passe par cette chaîne : bocal → serveur MCP → notation → vérification de sécurité.
Implémentation de la sécurité
Chaque appel d'outil est noté de 000 à 999 et doit passer 13 étages stricts incluant :
- Amanah
- Vérité
- Sécurité
- Injection
- Souveraineté
Si un appel échoue à n'importe quel étage, il renvoie "VOID" et rien ne touche votre système de fichiers, API ou base de données. La logique de blocage est simple :
if verdict == "VOID":
return "Action Blocked by Floor 1: Amanah"Comme le dit Arif : "C'est toute la blague : modèle à milliards de dollars, serrure à 15$."
Installation et disponibilité
Disponible via pip : pip install arifos
Dépôt : https://github.com/ariffazil/arifOS
Le créateur invite aux tests : "Si vous exécutez des agents OpenClaw et voulez un videur paranoïaque devant vos compétences, n'hésitez pas à casser ceci et à me dire où ça fuit."
Contexte de développement
Arif note que tout le code Python a été écrit par des agents d'IA, et qu'il ne "sait même pas épeler phython" — soulignant le paradoxe des non-codeurs construisant des outils de sécurité avec l'aide de l'IA.
📖 Lire la source complète : r/openclaw
👀 See Also

Sécurité Slack OpenClaw : Risques d'exposition des clés API et correctifs
Les déploiements OpenClaw sur Slack peuvent exposer des clés API via des messages d'erreur dans les canaux, avec plus de 8 000 instances trouvées exposées dans un rapport Bitsight. La source détaille trois vulnérabilités spécifiques et propose des correctifs pratiques incluant des modifications de prompts système et une migration vers SlackClaw.

FORGE : Cadre de test de sécurité IA open source pour les systèmes LLM
FORGE est un cadre de test de sécurité IA autonome qui construit ses propres outils en cours d'exécution, se réplique en essaim et couvre les vulnérabilités OWASP LLM Top 10, y compris l'injection de prompt, le fuzzing de jailbreak et la fuite RAG.

Instances de Paperclip non sécurisées exposant des tableaux de bord en direct via la recherche Google
Un utilisateur de Reddit a découvert un tableau de bord Paperclip en direct avec toutes les données organisationnelles indexées par Google après avoir recherché une erreur. L'instance était exposée publiquement sans authentification, révélant les organigrammes, les conversations des agents, les affectations de tâches et les plans d'affaires.

Compromission de NPM via une porte dérobée dans Axios : impact sur les agents de codage IA
Le 31 mars 2026, un acteur de menace lié à la Corée du Nord a compromis npm en publiant des versions piégées d'Axios (1.14.1 et 0.30.4) pendant une fenêtre de 3 heures. Le logiciel malveillant injectait une dépendance qui téléchargeait un RAT spécifique à la plateforme, récoltait des identifiants et s'auto-effaçait, les agents de codage IA comme Claude Code et Cursor étant particulièrement vulnérables en raison des installations npm automatisées.