El repositorio de GitHub documenta 16 técnicas de inyección de prompts y estrategias de defensa para chats públicos de IA.

Un desarrollador construyó un chat de IA personalizado en su sitio web como experimento y se encontró con múltiples desafíos de seguridad cuando usuarios reales intentaron vulnerarlo. Esta experiencia motivó la creación de una guía de seguridad integral disponible en GitHub.
Desafíos de seguridad encontrados
Los usuarios intentaron varios ataques incluyendo:
- Inyección de prompts
- Ataques de roleplay
- Trucos multilingües
- Payloads codificados en base64
Estrategias de defensa implementadas
El desarrollador documentó un enfoque de defensa en profundidad que cubre:
- Saneamiento de entradas
- Limitación de tasa
- Diseño de prompts del sistema con confianza cero
- Controles de salida
- Límites de costos
Contenido del repositorio de GitHub
El repositorio incluye:
- Un desglose de 16 técnicas de inyección de prompts
- Una habilidad de código de Claude que prueba automáticamente las 16 técnicas contra tu chatbot
- Detalles completos de implementación de defensas
El desarrollador señala que los usuarios intentaron cosas que "nunca se le habrían ocurrido probar" y que la guía está diseñada para ser útil para cualquiera que implemente sistemas similares de chat de IA públicos.
📖 Read the full source: r/ClaudeAI
👀 Ver también

El Problema del Guardia Uniformado: Por qué los Sandboxes de Agentes Necesitan Identidad, No Solo Política
El sandbox openshell de Nemoclaw aplica políticas de alcance a binarios, lo que permite que el malware viva de la tierra usando los mismos binarios que el agente. ZeroID, una capa de identidad de agente de código abierto, aplica políticas de seguridad a agentes respaldados por identidades seguras.

LiteLLM v1.82.8 Compromiso Utiliza Archivo .pth para Ejecución Persistente
LiteLLM v1.82.8 fue comprometido en PyPI e incluye un archivo .pth que ejecuta código arbitrario en cada inicio de proceso Python, no solo cuando se importa la biblioteca. La carga útil se ejecuta incluso si LiteLLM está instalado como una dependencia transitiva y nunca se usa directamente.

Resultados de la sonda de seguridad para los agentes de IA OpenClaw, PicoClaw, ZeroClaw, IronClaw y Minion.
Una evaluación de seguridad de cinco agentes de codificación de IA probó 145 cargas útiles de ataque en 12 categorías, incluyendo inyección de prompts, jailbreaking y exfiltración de datos. OpenClaw obtuvo 77.8/100 con vulnerabilidades críticas de inyección SQL, mientras que Minion mejoró de 81.2 a 94.4/100 después de correcciones.

Los LLM pueden identificar a usuarios anónimos de foros con un 68% de precisión y un 90% de exactitud.
Investigadores utilizaron Gemini y ChatGPT para analizar publicaciones de Hacker News y Reddit, identificando al 68% de los usuarios anónimos con un 90% de precisión. Los modelos completaron en minutos lo que a los humanos les tomaría horas o sería imposible.