Anthropic сообщает о промышленных масштабах атак методом дистилляции на Claude со стороны китайских лабораторий ИИ.

Операция по извлечению моделей в промышленных масштабах
Anthropic опубликовала результаты, детализирующие скоординированные атаки дистилляции против Claude, проведённые тремя китайскими лабораториями ИИ. Атаки включали массовое создание поддельных аккаунтов для извлечения способностей Claude к рассуждению через огромное количество взаимодействий с API.
Ключевые детали атаки из отчёта Anthropic
- DeepSeek, Moonshot и MiniMax создали более 24 000 поддельных аккаунтов
- Общее количество взаимодействий с Claude превысило 16 миллионов
- Только MiniMax отправила 13 миллионов запросов
- Когда Anthropic выпустила новую модель, MiniMax перенаправила почти половину своего трафика в течение 24 часов
- DeepSeek целенаправленно нацеливалась на цепочки рассуждений и цензурно-безопасные ответы
- Атаки становились всё более изощрёнными со временем по мере адаптации методов лабораториями
Последствия для безопасности разработчиков ИИ
Этот инцидент подчёркивает уязвимости в безопасности моделей ИИ, когда лаборатории с миллиардными бюджетами систематически пытаются извлечь проприетарные возможности. Масштаб и настойчивость этих атак — охватывающих несколько организаций и адаптирующихся к новым выпускам моделей — указывают на то, что это представляет собой постоянный вектор угрозы, а не изолированные инциденты.
Использованные методы (создание поддельных аккаунтов, целевые запросы на конкретные возможности, быстрая адаптация к новым версиям моделей) потенциально могут быть воспроизведены против других систем ИИ, что поднимает вопросы о безопасности сторонних инструментов ИИ, которые разработчики интегрируют в свои рабочие процессы.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Мошеннический инструмент Roblox и ИИ вызвали сбой платформы Vercel.
Сообщается, что читерская программа для Roblox в сочетании с инструментом искусственного интеллекта вызвала полный сбой платформы Vercel, что привело к активному обсуждению на Hacker News с 66 баллами и 24 комментариями.

Чат-бот Claude использован при утечке данных мексиканского правительства.
Хакер использовал чат-бот Claude от Anthropic для атаки на несколько государственных агентств Мексики, похитив 150 ГБ данных, включая записи о налогоплательщиках и учетные данные сотрудников. Хакер взломал Claude с помощью промптов, чтобы обойти защитные механизмы и сгенерировать тысячи детальных планов атак.

Исходный код Cisco украден в результате атаки на цепочку поставок через Trivy
Внутренняя среда разработки Cisco была взломана с использованием украденных учетных данных из атаки на цепочку поставок Trivy, что привело к краже исходного кода из более чем 300 репозиториев GitHub, включая продукты на основе ИИ и код клиентов.

PolyRange: Устойчивый к загрязнению бенчмарк для атакующего ИИ с целями, сгенерированными LLM
PolyRange v1.0 — это бенчмарк с лицензией MIT, который можно разместить самостоятельно. Он генерирует свежие веб-цели для каждого запуска, чтобы предотвратить загрязнение обучающих данных. Включает 84 класса, производных от WSTG, по всем категориям OWASP, два уровня защиты и реальные бэкенды.