El repositorio de GitHub documenta 16 técnicas de inyección de prompts y estrategias de defensa para chats públicos de IA.

✍️ OpenClawRadar📅 Publicado: 10 de marzo de 2026🔗 Source
El repositorio de GitHub documenta 16 técnicas de inyección de prompts y estrategias de defensa para chats públicos de IA.
Ad

Un desarrollador construyó un chat de IA personalizado en su sitio web como experimento y se encontró con múltiples desafíos de seguridad cuando usuarios reales intentaron vulnerarlo. Esta experiencia motivó la creación de una guía de seguridad integral disponible en GitHub.

Desafíos de seguridad encontrados

Los usuarios intentaron varios ataques incluyendo:

  • Inyección de prompts
  • Ataques de roleplay
  • Trucos multilingües
  • Payloads codificados en base64

Estrategias de defensa implementadas

El desarrollador documentó un enfoque de defensa en profundidad que cubre:

  • Saneamiento de entradas
  • Limitación de tasa
  • Diseño de prompts del sistema con confianza cero
  • Controles de salida
  • Límites de costos
Ad

Contenido del repositorio de GitHub

El repositorio incluye:

  • Un desglose de 16 técnicas de inyección de prompts
  • Una habilidad de código de Claude que prueba automáticamente las 16 técnicas contra tu chatbot
  • Detalles completos de implementación de defensas

El desarrollador señala que los usuarios intentaron cosas que "nunca se le habrían ocurrido probar" y que la guía está diseñada para ser útil para cualquiera que implemente sistemas similares de chat de IA públicos.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

El Problema del Guardia Uniformado: Por qué los Sandboxes de Agentes Necesitan Identidad, No Solo Política
Seguridad

El Problema del Guardia Uniformado: Por qué los Sandboxes de Agentes Necesitan Identidad, No Solo Política

El sandbox openshell de Nemoclaw aplica políticas de alcance a binarios, lo que permite que el malware viva de la tierra usando los mismos binarios que el agente. ZeroID, una capa de identidad de agente de código abierto, aplica políticas de seguridad a agentes respaldados por identidades seguras.

OpenClawRadar
LiteLLM v1.82.8 Compromiso Utiliza Archivo .pth para Ejecución Persistente
Seguridad

LiteLLM v1.82.8 Compromiso Utiliza Archivo .pth para Ejecución Persistente

LiteLLM v1.82.8 fue comprometido en PyPI e incluye un archivo .pth que ejecuta código arbitrario en cada inicio de proceso Python, no solo cuando se importa la biblioteca. La carga útil se ejecuta incluso si LiteLLM está instalado como una dependencia transitiva y nunca se usa directamente.

OpenClawRadar
Resultados de la sonda de seguridad para los agentes de IA OpenClaw, PicoClaw, ZeroClaw, IronClaw y Minion.
Seguridad

Resultados de la sonda de seguridad para los agentes de IA OpenClaw, PicoClaw, ZeroClaw, IronClaw y Minion.

Una evaluación de seguridad de cinco agentes de codificación de IA probó 145 cargas útiles de ataque en 12 categorías, incluyendo inyección de prompts, jailbreaking y exfiltración de datos. OpenClaw obtuvo 77.8/100 con vulnerabilidades críticas de inyección SQL, mientras que Minion mejoró de 81.2 a 94.4/100 después de correcciones.

OpenClawRadar
Los LLM pueden identificar a usuarios anónimos de foros con un 68% de precisión y un 90% de exactitud.
Seguridad

Los LLM pueden identificar a usuarios anónimos de foros con un 68% de precisión y un 90% de exactitud.

Investigadores utilizaron Gemini y ChatGPT para analizar publicaciones de Hacker News y Reddit, identificando al 68% de los usuarios anónimos con un 90% de precisión. Los modelos completaron en minutos lo que a los humanos les tomaría horas o sería imposible.

OpenClawRadar