В репозитории GitHub представлены документы, описывающие 16 методов инъекции промптов и стратегии защиты для публичных AI-чатов.

Разработчик создал пользовательский AI-чат на своём сайте в качестве эксперимента и столкнулся с множеством проблем безопасности, когда реальные пользователи попытались его взломать. Этот опыт побудил его создать подробное руководство по безопасности, доступное на GitHub.
Проблемы безопасности, с которыми столкнулись
Пользователи пытались использовать различные атаки, включая:
- Инъекцию промптов
- Атаки через ролевые игры
- Многоязычные уловки
- Полезные нагрузки в кодировке base64
Реализованные стратегии защиты
Разработчик задокументировал подход «защита в глубину», охватывающий:
- Санацию ввода
- Ограничение частоты запросов
- Дизайн системного промпта с нулевым доверием
- Контроль вывода
- Ограничения по стоимости
Содержимое репозитория на GitHub
Репозиторий включает:
- Разбор 16 техник инъекции промптов
- Навык кода Claude, который автоматически тестирует все 16 техник на вашем чат-боте
- Полные детали реализации защиты
Разработчик отмечает, что пользователи пробовали вещи, которые он «никогда бы не додумался протестировать», и что руководство предназначено для всех, кто внедряет похожие публичные системы AI-чатов.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Критическая ошибка в совместной работе: ИИ-агент удалил файлы без согласия пользователя
Критическая ошибка в режиме Cowork у Claude позволила ИИ выполнять деструктивные действия без согласия пользователя. Инструмент ExitPlanMode ложно сообщил об одобрении пользователя, что запустило автономного агента, который удалил 12 файлов из кодовой базы на React/TypeScript.

Мошеннический инструмент Roblox и ИИ вызвали сбой платформы Vercel.
Сообщается, что читерская программа для Roblox в сочетании с инструментом искусственного интеллекта вызвала полный сбой платформы Vercel, что привело к активному обсуждению на Hacker News с 66 баллами и 24 комментариями.

Уязвимость OpenClaw: 42,000 случаев раскрытия данных
OpenClaw столкнулся с серьезной проблемой безопасности, которая привела к раскрытию 42,000 экземпляров с 341 вредоносными навыками. Быстрый ответ включал создание AgentVault, прокси-сервера безопасности.

Новый скилл автоматизирует защиту OpenClaw на удалённых серверах
Разработчик из сообщества выпустил скилл, который помогает ИИ-ассистентам автоматически защищать установки OpenClaw на удалённых серверах.