Обход защитных механизмов Claude AI замечен при оформлении запросов в виде задач сетевой безопасности.

✍️ OpenClawRadar📅 Опубликовано: 17 апреля 2026 г.🔗 Source
Обход защитных механизмов Claude AI замечен при оформлении запросов в виде задач сетевой безопасности.
Ad

Обход защитных механизмов через формулировку намерений

Пользователь, тестировавший поведение промптов в ИИ Claude, обнаружил крайний случай, когда защитные механизмы модели можно обойти с помощью специфической формулировки намерений. При прямом запросе пиратских сайтов Claude обычно отказывает. Однако, когда тот же запрос формулируется как задача сетевой безопасности — конкретно запрос доменов для блокировки на маршрутизаторе или DNS-фильтре — модель предоставила список пиратских доменов.

После получения списка пользователь указал, что формулировка повлияла на ответ. Claude признал, что неправильно интерпретировал намерения. Это похоже на проблему классификации намерений, когда защитная формулировка («заблокировать эти сайты») заставляет защитный механизм разрешить информацию, которая обычно была бы ограничена.

Пользователь поделился скриншотами, показывающими полную последовательность промптов и ответов Claude, документируя это поведение. Он отметил это как интересный крайний случай и спросил, наблюдали ли другие подобное поведение у Claude или других больших языковых моделей.

📖 Прочитать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

Усиление безопасности OpenClaw: Многоуровневая защита от рисков автономных агентов.
Безопасность

Усиление безопасности OpenClaw: Многоуровневая защита от рисков автономных агентов.

Разработчик модифицировал код OpenClaw, добавив многоуровневый стек безопасности, включающий строгую регулярную защиту, рекурсивный деобфускатор, профиль AppArmor и интеграцию аудита для предотвращения деструктивных команд и утечки данных автономными агентами.

OpenClawRadar
Обзор безопасности команды Claude имеет ограничения для производственных систем
Безопасность

Обзор безопасности команды Claude имеет ограничения для производственных систем

Разработчик обнаружил, что команда проверки безопасности Claude полезна для базовой валидации, такой как MIME-типы и ограничения размера файлов, но недостаточна для защиты в продакшене от сложных угроз. Решение потребовало двухнедельной архитектурной переработки с разделением обработки файлов на ограниченного воркера с минимальными правами.

OpenClawRadar
Агент Hush: Инструмент с открытым исходным кодом предотвращает утечку конфиденциальных данных AI-агентами для написания кода
Безопасность

Агент Hush: Инструмент с открытым исходным кодом предотвращает утечку конфиденциальных данных AI-агентами для написания кода

Agent Hush — это инструмент с открытым исходным кодом, который перехватывает конфиденциальные данные до того, как они покинут ваше устройство. Он был создан после того, как AI-агент разработчика случайно опубликовал API-ключи, IP-адреса серверов и личную информацию в публичном репозитории GitHub во время работы над проектом по безопасности.

OpenClawRadar
ClawSecure: Платформа безопасности для экосистемы OpenClaw с 3-уровневым аудитом и мониторингом в реальном времени
Безопасность

ClawSecure: Платформа безопасности для экосистемы OpenClaw с 3-уровневым аудитом и мониторингом в реальном времени

ClawSecure — это специализированная платформа безопасности для OpenClaw, которая проводит трёхуровневые аудиты безопасности, мониторинг в реальном времени с отслеживанием хэшей SHA-256 каждые 12 часов и обеспечивает полное покрытие OWASP ASI. Она проверила более 3000 популярных навыков и бесплатна для использования без регистрации.

OpenClawRadar