Claude Code 2.1.136: Seguridad de Acción, Reglas de Denegación Estricta y Monitor de Seguridad

Claude Code v2.1.136 trae cambios significativos en la seguridad del agente y la aplicación de reglas en el prompt del sistema, el prompt del agente y las descripciones de herramientas. Esto es lo nuevo y cómo afecta el comportamiento del agente autónomo.
Prompt del sistema: Seguridad en acciones e informes veraces
El prompt del sistema actualizado ahora requiere que los agentes busquen confirmación antes de realizar acciones irreversibles o dirigidas al exterior, a menos que esas acciones hayan sido autorizadas de forma duradera. Los agentes deben inspeccionar los objetivos antes de eliminarlos o sobrescribirlos. Los requisitos de informes enfatizan la divulgación fiel de pasos omitidos, pruebas fallidas y resultados verificados, sin omitir fallos.
Prompt del agente: Revisor de reglas del modo automático
Se introduce una nueva categoría de reglas personalizadas hard_deny como cuarta opción junto a las existentes allow, deny y soft_deny. hard_deny bloquea incondicionalmente acciones en el límite de seguridad: la intención del usuario no puede anularlo. La categoría existente soft_deny se reduce para cubrir solo acciones destructivas o irreversibles que la intención clara del usuario puede autorizar.
Prompt del agente: Monitor de seguridad para acciones de agentes autónomos
La lógica del monitor de seguridad se reestructura en dos partes. La primera parte divide el bloqueo en bloqueos duros incondicionales y bloqueos suaves autorizables por el usuario. La regla predeterminada se actualiza y la intención del usuario ya no puede eliminar los límites de seguridad de bloqueo duro. La segunda parte mueve la exfiltración de datos al conjunto de bloqueo duro, agrega cobertura de bloqueo duro para evasiones de verificaciones de seguridad y trata cualquier servicio externo o fuente de descarga adivinada por el agente como no confiable.
Descripción de herramienta: Editar
La descripción de la herramienta Editar ahora restaura el formato de prefijo de número de línea como variable de plantilla, mientras conserva la guía de que los prefijos de línea deben excluirse de las cadenas de edición reales. Es una corrección de limpieza para mantener la coherencia.
Estos cambios refuerzan el perímetro de seguridad para los agentes autónomos de Claude Code. Los desarrolladores que dependen de reglas personalizadas deben actualizar sus configuraciones para aprovechar hard_deny en los bloqueos críticos de seguridad. Los diffs completos de los prompts están disponibles en el lanzamiento.
📖 Lea la fuente completa: r/ClaudeAI
👀 Ver también

Los desarrolladores del kernel de Linux proponen eliminar código heredado debido a informes de errores generados por LLM.
Los desarrolladores del kernel de Linux proponen eliminar varios subsistemas heredados, incluidos los controladores Ethernet ISA/PCMCIA, protocolos de radioaficionados, ATM e ISDN, para reducir la carga de manejar informes de errores de seguridad generados por grandes modelos de lenguaje.

Hallazgos de Investigación sobre la Fiabilidad de los Agentes de IA y Patrones de Desarrollo
Una sesión de investigación colaborativa con Claude Opus analizó 15 artículos sobre agentes de IA, revelando problemas de fiabilidad cuantificados: los agentes producen 2-4 secuencias de acciones diferentes en 10 ejecuciones, con un 69% de divergencia ocurriendo en la primera decisión. Los agentes de auto-mejora mostraron tasas de rechazo por seguridad que cayeron del 99,4% al 54,4% mediante su propio aprendizaje.

Meta OpenEnv AI Hackathon en India Ofrece Entrevistas Directas y un Premio de $30,000
Meta organiza el primer OpenEnv AI Hackathon de la India en colaboración con Hugging Face y PyTorch, donde los desarrolladores crearán entornos de aprendizaje por refuerzo para agentes de IA. Los mejores equipos obtendrán entrevistas directas con los equipos de IA de Meta y Hugging Face, además de un premio de $30,000.

Plataformas de Entrevistas con IA Evaluadas: CodeSignal, Humanly, Eightfold en la Preselección de Empleo
The Verge probó tres plataformas de entrevistas con IA, incluyendo CodeSignal, Humanly y Eightfold, para la selección de personal. Los avatares de IA realizan entrevistas de video uno a uno, analizan las respuestas y afirman reducir el sesgo, aunque los sistemas libres de sesgo siguen siendo imposibles debido a las limitaciones de los datos de entrenamiento.