El Problema del Guardia Uniformado: Por qué los Sandboxes de Agentes Necesitan Identidad, No Solo Política

El Problema del Guardia Uniformado destaca una falla crítica en los sandboxes de agentes de IA como openshell de Nemoclaw: las políticas de seguridad se aplican a los binarios, no a los agentes. Esto permite que el malware, como la cepa Shai-Hulud, viva de la tierra reutilizando los mismos binarios que su agente tiene permitido ejecutar. La solución propuesta es una capa de identidad de agente de código abierto llamada ZeroID, actualmente disponible como habilidad en ClawHub y como sidecar para control fuera de banda.
Problema clave: Políticas de alcance binario
El sandbox openshell de Nemoclaw aplica políticas a nivel de binarios. Por ejemplo, si su agente puede ejecutar /usr/bin/curl, cualquier proceso con ese binario —incluyendo malware— puede ejecutarlo. Esto significa que una carga maliciosa puede descargar y ejecutar código arbitrario usando las herramientas permitidas del agente. El sandbox no ofrece ningún mecanismo para distinguir entre una acción legítima del agente y una acción maliciosa que usa el mismo binario.
Solución: Identidad respaldada por agente
ZeroID cambia la seguridad de políticas de alcance binario a políticas de alcance de agente. Cada agente recibe una identidad criptográfica, y las políticas se aplican en función de esa identidad. Esto evita que el malware aproveche los binarios permitidos por el agente, ya que el malware carece de la identidad del agente. La capa de identidad puede operar en dos modos:
- Habilidad de ClawHub: Instale ZeroID como una habilidad en ClawHub, sin necesidad de cambios en la infraestructura.
- Integración como sidecar: Ejecute ZeroID como un proceso sidecar para control fuera de banda, interceptando las llamadas al sistema y validando la identidad antes de la ejecución.
Detalles de implementación
Según la fuente, ZeroID es de código abierto y actualmente se integra con Openclaw. El equipo invita a la comunidad a probarlo y ayudar a expandir la integración con Openclaw. No se proporcionaron números de versión ni fragmentos de código en la fuente, pero la arquitectura sidecar sugiere un demonio ligero que se engancha en el entorno de ejecución del agente.
Para quién es
Desarrolladores que ejecutan agentes de codificación de IA en Openclaw y necesitan un aislamiento más fuerte contra malware que evita el sandboxing a nivel de binario.
📖 Lea la fuente original: r/openclaw
👀 Ver también

Presentamos SkillFence: El nuevo monitor en tiempo de ejecución que observa lo que realmente hacen las habilidades.
SkillFence ofrece un avance en el monitoreo de las acciones de los agentes de IA, abordando la necesidad de transparencia y seguridad en entornos impulsados por IA. Descubre cómo esta herramienta innovadora puede mejorar el control sobre procesos autónomos.

Anthropic informa sobre ataques de destilación a escala industrial por parte de laboratorios chinos de IA contra Claude.
Anthropic detectó que tres empresas chinas de IA—DeepSeek, Moonshot y MiniMax—crearon más de 24,000 cuentas fraudulentas para generar más de 16 millones de intercambios con Claude, extrayendo sus capacidades de razonamiento mediante ataques de destilación sistemáticos.

De la Granja al Código: Cómo un Agricultor Creó una Defensa de Tiempo de Ejecución de Código Abierto para OpenClaw
Descubre cómo un agricultor, sin experiencia previa en desarrollo, creó una defensa de tiempo de ejecución de código abierto para OpenClaw utilizando múltiples agentes de codificación de IA en solo 12 horas.

Según informes, la aplicación de Claude para Android lee el portapapeles sin una acción explícita del usuario.
Un usuario reporta que la aplicación Claude para Android analizó código de su portapapeles sin que lo pegaran, con Claude identificando el archivo como pasted_text_b4a56202-3d12-43c8-aa31-a39367a9a354.txt. El comportamiento no pudo reproducirse en pruebas posteriores.