Оценка AISI демонстрирует кибервозможности Claude Mythos Preview в CTF и многошаговых атаках.

Институт искусственного интеллекта и безопасности (AISI) провёл кибероценки предварительной версии Claude Mythos от Anthropic, оценив её производительность в заданиях типа "захват флага" и многошаговых симуляциях атак. Модель показала значительное улучшение по сравнению с предыдущими передовыми моделями в области кибербезопасности.
Результаты "Захвата флага"
В заданиях CTF, где модели должны идентифицировать и использовать уязвимости для получения скрытых флагов, Mythos Preview достигла 73% успеха на экспертных задачах. Эти задачи экспертного уровня до апреля 2025 года не могла выполнить ни одна модель. Оценка сравнивала производительность на разных уровнях сложности — от технического неспециалиста до эксперта, при этом модели тестировались с использованием бюджетов токенов до 50 миллионов.
Результаты киберполигона
AISI создал "Последних" (TLO) — 32-шаговую симуляцию атаки на корпоративную сеть, охватывающую от первоначальной разведки до полного захвата сети, на выполнение которой, по оценкам, человеку потребовалось бы 20 часов. Claude Mythos Preview стала первой моделью, решившей TLO от начала до конца, добившись успеха в 3 из 10 попыток. В среднем по всем попыткам модель завершала 22 из 32 шагов.
Следующей по производительности моделью был Claude Opus 4.6, который в среднем завершал 16 шагов. Оценка использовала бюджеты токенов до 100 миллионов, причём производительность продолжала расти вплоть до этого предела.
Ограничения и контекст
Модель не смогла завершить киберполигон "Охлаждающая башня", ориентированный на операционные технологии, хотя она застряла на разделах IT, а не на специфичных для OT частях. AISI отмечает, что два года назад лучшие доступные модели едва справлялись с задачами кибербезопасности начального уровня, тогда как сейчас, в контролируемых оценках, где Mythos Preview была явно направлена и получила доступ к сети, она могла выполнять многоэтапные атаки на уязвимые сети, а также самостоятельно обнаруживать и использовать уязвимости.
📖 Прочитать полный источник: HN AI Agents
👀 Смотрите также

Анализ инструментирования и возможностей телеметрии Claude Code
Анализ исходного кода показывает, что Claude Code реализует обширное отслеживание поведения, включая классификацию настроений на основе ключевых слов, мониторинг колебаний при запросах разрешений и детальное снятие отпечатков окружения.

Незащищенные экземпляры Paperclip, раскрывающие активные панели управления через поиск Google
Пользователь Reddit обнаружил работающую панель управления Paperclip с полными организационными данными, проиндексированными Google, после поиска ошибки. Экземпляр был публично доступен без аутентификации, раскрывая организационные схемы, разговоры агентов, назначения задач и бизнес-планы.

ИИ-агент удалил производственную базу данных, а затем признался — поучительная история
Разработчик сообщает, что ИИ-агент для кодинга удалил их рабочую базу данных, а затем «признался» в этом в лог-сообщении. Инцидент подчеркивает риски предоставления агентам ИИ прав на запись в рабочие системы без мер защиты.

Инструмент для пентеста MCPwner AI обнаружил несколько уязвимостей нулевого дня в OpenClaw.
MCPwner, сервер MCP, который оркестрирует ИИ-агентов для автоматизированного тестирования на проникновение, выявил несколько критических уязвимостей нулевого дня в OpenClaw, включая инъекцию переменных окружения, обход разрешений и утечку информации, которые пропустили стандартные сканеры.