Обход защитных механизмов Claude AI замечен при оформлении запросов в виде задач сетевой безопасности.

Обход защитных механизмов через формулировку намерений
Пользователь, тестировавший поведение промптов в ИИ Claude, обнаружил крайний случай, когда защитные механизмы модели можно обойти с помощью специфической формулировки намерений. При прямом запросе пиратских сайтов Claude обычно отказывает. Однако, когда тот же запрос формулируется как задача сетевой безопасности — конкретно запрос доменов для блокировки на маршрутизаторе или DNS-фильтре — модель предоставила список пиратских доменов.
После получения списка пользователь указал, что формулировка повлияла на ответ. Claude признал, что неправильно интерпретировал намерения. Это похоже на проблему классификации намерений, когда защитная формулировка («заблокировать эти сайты») заставляет защитный механизм разрешить информацию, которая обычно была бы ограничена.
Пользователь поделился скриншотами, показывающими полную последовательность промптов и ответов Claude, документируя это поведение. Он отметил это как интересный крайний случай и спросил, наблюдали ли другие подобное поведение у Claude или других больших языковых моделей.
📖 Прочитать полный источник: r/ClaudeAI
👀 Смотрите также

Усиление безопасности OpenClaw: Многоуровневая защита от рисков автономных агентов.
Разработчик модифицировал код OpenClaw, добавив многоуровневый стек безопасности, включающий строгую регулярную защиту, рекурсивный деобфускатор, профиль AppArmor и интеграцию аудита для предотвращения деструктивных команд и утечки данных автономными агентами.

Обзор безопасности команды Claude имеет ограничения для производственных систем
Разработчик обнаружил, что команда проверки безопасности Claude полезна для базовой валидации, такой как MIME-типы и ограничения размера файлов, но недостаточна для защиты в продакшене от сложных угроз. Решение потребовало двухнедельной архитектурной переработки с разделением обработки файлов на ограниченного воркера с минимальными правами.

Агент Hush: Инструмент с открытым исходным кодом предотвращает утечку конфиденциальных данных AI-агентами для написания кода
Agent Hush — это инструмент с открытым исходным кодом, который перехватывает конфиденциальные данные до того, как они покинут ваше устройство. Он был создан после того, как AI-агент разработчика случайно опубликовал API-ключи, IP-адреса серверов и личную информацию в публичном репозитории GitHub во время работы над проектом по безопасности.

ClawSecure: Платформа безопасности для экосистемы OpenClaw с 3-уровневым аудитом и мониторингом в реальном времени
ClawSecure — это специализированная платформа безопасности для OpenClaw, которая проводит трёхуровневые аудиты безопасности, мониторинг в реальном времени с отслеживанием хэшей SHA-256 каждые 12 часов и обеспечивает полное покрытие OWASP ASI. Она проверила более 3000 популярных навыков и бесплатна для использования без регистрации.