La fonctionnalité d'utilisation informatique d'Anthropic déclenche un verrouillage de gouvernance lors d'un test réel

✍️ OpenClawRadar📅 Publié: March 24, 2026🔗 Source
La fonctionnalité d'utilisation informatique d'Anthropic déclenche un verrouillage de gouvernance lors d'un test réel
Ad

Ce qui s'est passé

Anthropic a publié une fonctionnalité d'utilisation informatique. Un développeur travaillait dans une session Claude Code gouvernée pour ajouter une couverture d'application pour ces nouveaux outils lorsque le système est entré en mode VERROUILLAGE.

Détails clés de l'incident

Le système de gouvernance suit le risque cumulatif des opérations refusées. Lorsque ce risque a dépassé 0,50, le système est automatiquement passé en posture de VERROUILLAGE avec ces effets :

  • La session pouvait toujours lire les fichiers
  • Toutes les opérations d'écriture étaient bloquées
  • Les commandes de mutation ne pouvaient pas s'exécuter
  • Les poussées GitHub étaient empêchées
  • La couche de gouvernance a empêché son propre opérateur de terminer le travail qui aurait renforcé le système de gouvernance

Mécanisme d'application

Le VERROUILLAGE est mécaniquement appliqué par le système de crochets avec ces caractéristiques :

  • Aucun canal de contournement n'existe
  • Le modèle ne peut pas contourner la barrière par la conversation
  • L'opérateur ne peut pas émettre d'exceptions en bande
  • Le seul chemin de récupération nécessite de sortir complètement de la session
Ad

Processus de résolution

Pour poursuivre le travail, le développeur a dû :

  • Quitter la session gouvernée
  • Ouvrir un terminal sur sa machine locale
  • Pousser le commit manuellement

Le système a forcé une intervention humaine hors de sa juridiction, créant ce que le développeur décrit comme "la différence entre la gouvernance que vous décrivez et la gouvernance que vous appliquez".

Notes sur le comportement du système

L'implémentation du VERROUILLAGE ne se dégrade pas progressivement, ne demande pas de confirmation et maintient l'état d'arrêt jusqu'à ce qu'une action humaine se produise de l'extérieur. Le développeur note : "Ce refus est le produit."

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Surveillance des commandes OpenClaw avec Python et Gemini Flash pour la sécurité
Security

Surveillance des commandes OpenClaw avec Python et Gemini Flash pour la sécurité

Un utilisateur a créé un script Python qui suit les commandes injectées par OpenClaw, les analyse avec Gemini Flash et envoie des notifications via un webhook Discord pour toute activité alarmante ou irrégulière, pour un coût d'environ 0,14 $ par jour.

OpenClawRadar
L'Agent IA CodeWall Découvre des Vulnérabilités Critiques dans la Plateforme Lilli de McKinsey
Security

L'Agent IA CodeWall Découvre des Vulnérabilités Critiques dans la Plateforme Lilli de McKinsey

L'agent d'IA offensive autonome de CodeWall a obtenu un accès complet en lecture/écriture à la base de données de la plateforme Lilli AI interne de McKinsey en moins de 2 heures, exposant 46,5 millions de messages de discussion, 728 000 fichiers et des configurations système sensibles via des vulnérabilités d'injection SQL et d'IDOR.

OpenClawRadar
ClawSecure : Plateforme de Sécurité pour l'Écosystème OpenClaw
Security

ClawSecure : Plateforme de Sécurité pour l'Écosystème OpenClaw

ClawSecure est une plateforme de sécurité conçue spécifiquement pour l'écosystème OpenClaw, proposant un protocole d'audit à 3 couches, une surveillance continue et une couverture des catégories OWASP ASI. Elle a audité plus de 3 000 compétences populaires et est disponible gratuitement sans inscription.

OpenClawRadar
Caelguard : Scanner de sécurité open source pour les compétences OpenClaw
Security

Caelguard : Scanner de sécurité open source pour les compétences OpenClaw

Caelguard est un scanner sous licence MIT, exécuté localement, qui détecte les problèmes de sécurité dans les compétences OpenClaw, notamment l'injection de prompt, la collecte d'identifiants et les charges utiles obfusquées. Les recherches montrent qu'environ 20 % des compétences publiées contiennent des modèles préoccupants.

OpenClawRadar