Se observó una omisión de las salvaguardas de Claude AI al enmarcar solicitudes como tareas de seguridad de red.

Evasión de barreras de seguridad mediante el encuadre de intención
Un usuario que probaba el comportamiento de los prompts en Claude AI descubrió un caso límite donde las barreras de seguridad del modelo pueden eludirse mediante un encuadre específico de intención. Cuando se piden directamente sitios de piratería, Claude normalmente rechaza la solicitud. Sin embargo, cuando la misma solicitud se enmarca como una tarea de seguridad de red—específicamente pidiendo dominios para bloquear en un router o filtro DNS—el modelo proporcionó una lista de dominios de piratería.
Después de recibir la lista, el usuario señaló que el encuadre influyó en la respuesta. Claude reconoció que malinterpretó la intención. Esto parece ser un problema de clasificación de intención donde el encuadre defensivo ("bloquear estos sitios") hace que la barrera de seguridad permita información que normalmente estaría restringida.
El usuario compartió capturas de pantalla mostrando la secuencia completa del prompt y las respuestas de Claude, documentando el comportamiento. Señalaron esto como un caso límite interesante y preguntaron si otros han observado comportamientos similares con Claude u otros modelos de lenguaje grandes.
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

Aislamiento de Agentes de IA con WebAssembly: Autoridad Cero por Defecto
Cosmonic argumenta que el sandboxing tradicional (seccomp, bubblewrap) falla para agentes de IA debido a la autoridad ambiental. El modelo basado en capacidades de WebAssembly otorga cero autoridad por defecto, requiriendo imports explícitos para sistema de archivos, red o credenciales.

Código fuente de Cisco robado mediante ataque de cadena de suministro de Trivy
El entorno de desarrollo interno de Cisco fue vulnerado utilizando credenciales robadas del ataque a la cadena de suministro de Trivy, lo que resultó en el robo del código fuente de más de 300 repositorios de GitHub, incluidos productos impulsados por IA y código de clientes.

Linux Kernel Propone Sistema de Identidad Descentralizado para Reemplazar la Red de Confianza de PGP
Los mantenedores del kernel de Linux están trabajando en una capa de identidad descentralizada llamada Linux ID para reemplazar la actual red de confianza PGP. El sistema utiliza identificadores descentralizados (DID) al estilo W3C y credenciales verificables para autenticar a los desarrolladores sin requerir sesiones presenciales de firma de claves.

Ataque a la cadena de suministro de NPM y PyPI afecta a TanStack, Mistral AI y más de 170 paquetes
Un ataque coordinado comprometió más de 170 paquetes npm y 2 paquetes PyPI, dirigidos a TanStack (42 paquetes), SDKs de Mistral AI, UiPath, OpenSearch y Guardrails AI. Las versiones maliciosas ejecutan un dropper que extrae credenciales y sondea metadatos en la nube.