16 методов инъекции промптов: полное руководство по защите AI-чатов

Разработчик создал пользовательский AI-чат на своём сайте в качестве эксперимента и столкнулся с множеством проблем безопасности, когда реальные пользователи попытались его взломать. Этот опыт побудил его создать подробное руководство по безопасности, доступное на GitHub.

Проблемы безопасности, с которыми столкнулись

Пользователи пытались использовать различные атаки, включая:

Инъекцию промптов
Атаки через ролевые игры
Многоязычные уловки
Полезные нагрузки в кодировке base64

Реализованные стратегии защиты

Разработчик задокументировал подход «защита в глубину», охватывающий:

Санацию ввода
Ограничение частоты запросов
Дизайн системного промпта с нулевым доверием
Контроль вывода
Ограничения по стоимости

Содержимое репозитория на GitHub

Репозиторий включает:

Разбор 16 техник инъекции промптов
Навык кода Claude, который автоматически тестирует все 16 техник на вашем чат-боте
Полные детали реализации защиты

Разработчик отмечает, что пользователи пробовали вещи, которые он «никогда бы не додумался протестировать», и что руководство предназначено для всех, кто внедряет похожие публичные системы AI-чатов.

📖 Read the full source: r/ClaudeAI

В репозитории GitHub представлены документы, описывающие 16 методов инъекции промптов и стратегии защиты для публичных AI-чатов.

Проблемы безопасности, с которыми столкнулись

Реализованные стратегии защиты

Содержимое репозитория на GitHub

👀 Смотрите также

Три альтернативы с открытым исходным кодом для litellm после атаки на цепочку поставок PyPI

Пользователь Reddit сообщает о сохранении виртуальной машины OpenClaw и подозрительной активности.

В репозитории Claude Flow обнаружен троян в файлах skill.md

Pi: AI-киберагент за $100 млн от бывшего хакера Tesla защищает xAI и исправляет ошибки за минуты