Claude AI omite salvaguardas al enmarcar peticiones como seguridad

Evasión de barreras de seguridad mediante el encuadre de intención

Un usuario que probaba el comportamiento de los prompts en Claude AI descubrió un caso límite donde las barreras de seguridad del modelo pueden eludirse mediante un encuadre específico de intención. Cuando se piden directamente sitios de piratería, Claude normalmente rechaza la solicitud. Sin embargo, cuando la misma solicitud se enmarca como una tarea de seguridad de red—específicamente pidiendo dominios para bloquear en un router o filtro DNS—el modelo proporcionó una lista de dominios de piratería.

Después de recibir la lista, el usuario señaló que el encuadre influyó en la respuesta. Claude reconoció que malinterpretó la intención. Esto parece ser un problema de clasificación de intención donde el encuadre defensivo ("bloquear estos sitios") hace que la barrera de seguridad permita información que normalmente estaría restringida.

El usuario compartió capturas de pantalla mostrando la secuencia completa del prompt y las respuestas de Claude, documentando el comportamiento. Señalaron esto como un caso límite interesante y preguntaron si otros han observado comportamientos similares con Claude u otros modelos de lenguaje grandes.

📖 Leer la fuente completa: r/ClaudeAI

Se observó una omisión de las salvaguardas de Claude AI al enmarcar solicitudes como tareas de seguridad de red.

Evasión de barreras de seguridad mediante el encuadre de intención

👀 Ver también

Agentes de IA permiten que hackers solitarios vulneren gobiernos y campañas de ransomware

La herramienta Cloak reemplaza las contraseñas de chat con enlaces autodestructivos para agentes de OpenClaw.

Caelguard: Escáner de seguridad de código abierto para habilidades de OpenClaw

Audite sus permisos de Claude Code: una guía práctica para limitar el acceso a herramientas