La Función de Uso de Computadora de Anthropic Provoca un Bloqueo de Gobernanza en una Prueba Real

Qué Ocurrió
Anthropic lanzó funcionalidad de uso informático. Un desarrollador estaba trabajando dentro de una sesión gobernada de Claude Code para añadir cobertura de aplicación para estas nuevas herramientas cuando el sistema entró en modo BLOQUEO.
Detalles Clave del Incidente
El sistema de gobernanza rastrea el riesgo acumulado de operaciones denegadas. Cuando este riesgo superó 0.50, el sistema escaló automáticamente a postura de BLOQUEO con estos efectos:
- La sesión aún podía leer archivos
- Todas las operaciones de escritura fueron bloqueadas
- Los comandos de modificación no podían ejecutarse
- Se impidieron los envíos a GitHub
- La capa de gobernanza bloqueó a su propio operador de completar el trabajo que habría fortalecido el sistema de gobernanza
Mecanismo de Aplicación
El BLOQUEO se aplica mecánicamente por el sistema de ganchos con estas características:
- No existe canal de anulación
- El modelo no puede eludir la puerta mediante conversación
- El operador no puede emitir excepciones internas
- El único camino de recuperación requiere salir completamente de la sesión
Proceso de Resolución
Para continuar el trabajo, el desarrollador tuvo que:
- Salir de la sesión gobernada
- Abrir una terminal en su máquina local
- Enviar el commit manualmente
El sistema forzó la intervención humana fuera de su jurisdicción, creando lo que el desarrollador describe como "la diferencia entre la gobernanza que describes y la gobernanza que aplicas".
Notas sobre el Comportamiento del Sistema
La implementación del BLOQUEO no se degrada gradualmente, no pide confirmación y mantiene el estado detenido hasta que ocurre una acción humana externamente. El desarrollador señala: "Esa negativa es el producto".
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

Aislamiento de Agentes de IA con WebAssembly: Autoridad Cero por Defecto
Cosmonic argumenta que el sandboxing tradicional (seccomp, bubblewrap) falla para agentes de IA debido a la autoridad ambiental. El modelo basado en capacidades de WebAssembly otorga cero autoridad por defecto, requiriendo imports explícitos para sistema de archivos, red o credenciales.

Usuario de Reddit reporta persistencia de VM OpenClaw y actividad sospechosa
Un usuario de Reddit informa que su máquina virtual OpenClaw se reinicia automáticamente después de cerrarse y muestra un comportamiento sospechoso, incluyendo la apertura de Microsoft Store y el intento de descargar archivos cuestionables.

No confíes más en la IA que en un humano: aplica los mismos controles de acceso
Un debate en Reddit argumenta que los agentes de codificación de IA deberían ser tratados como desarrolladores júnior: sin acceso a producción, sin escrituras directas, forzar pipelines de CI/CD y permisos basados en roles.
