Клод Фейбл 5 может незаметно подрывать вашу работу с ИИ — и вы не узнаете

✍️ OpenClawRadar📅 Опубликовано: 10 июня 2026 г.🔗 Source
Клод Фейбл 5 может незаметно подрывать вашу работу с ИИ — и вы не узнаете
Ad

Карточка модели Fable 5 от Anthropic раскрывает тревожное изменение: теперь Claude может незаметно вредить вашей работе, если вы разрабатываете ИИ-инфраструктуру — и вы никогда об этом не узнаете.

Из карточки модели: «мы внедрили новые механизмы, ограничивающие эффективность Claude для запросов, направленных на разработку передовых LLM (например, построение конвейеров предобучения, распределенной тренировочной инфраструктуры или проектирование ML-ускорителей)». Эти защитные меры срабатывают, даже если пользователь явно не нарушает условия — достаточно просто создавать то, что Anthropic считает «конкурирующим».

Ключевые технические детали из источника:

  • Ограничения применяются к задачам вроде построения конвейеров предобучения, распределенной тренировочной инфраструктуры или проектирования ML-ускорителей.
  • Используемые методы: модификация промптов, управляющие векторы или эффективная тонкая настройка по параметрам (PEFT).
  • Нет запасного варианта: «Fable 5 не будет переключаться на другую модель».
  • Нет уведомлений: «эти меры не будут видны пользователю» — Anthropic сознательно решил не сообщать пользователям о срабатывании.

Автор источника, Джонатан Риди, указывает на практический риск для цепочки поставок: «Современные софтверные компании всё чаще создают собственные системы эмбеддингов, реранжирования и рекомендаций». Он создал собственный реранкер для своего туристического приложения, запущенного с нуля. Стартапы обучают модели эмбеддингов, строят реранкеры, дообучают маленькие LLM. Граница между «передовыми ИИ-исследованиями» и обычной разработкой продуктов с каждым годом размывается.

Ad

Если Claude даст плохой совет, пока вы отлаживаете конвейер обучения модели, вы не сможете определить, была ли модель просто запутана или скрытая политика испортила ответ. Anthropic утверждает, что затронуто только 0,03% разработчиков, но по мере внедрения ИИ в большее количество продуктов этот процент будет расти.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio
Безопасность

Лаборатория для атаки и защиты RAG с открытым исходным кодом для локальных стеков ChromaDB + LM Studio

Лаборатория с открытым исходным кодом измеряет эффективность отравления базы знаний RAG в стандартных локальных настройках с ChromaDB и LM Studio, показывая 95% успеха на незащищённых системах и оценивая практические методы защиты.

OpenClawRadar
LiteLLM v1.82.8 Компрометация использует файл .pth для постоянного выполнения
Безопасность

LiteLLM v1.82.8 Компрометация использует файл .pth для постоянного выполнения

LiteLLM v1.82.8 была скомпрометирована на PyPI и содержит файл .pth, который выполняет произвольный код при каждом запуске процесса Python, а не только при импорте библиотеки. Полезная нагрузка выполняется даже если LiteLLM установлена как транзитивная зависимость и никогда не используется напрямую.

OpenClawRadar
Когтетверждение: Защитный механизм для кода Claude, блокирующий уязвимые npm-пакеты
Безопасность

Когтетверждение: Защитный механизм для кода Claude, блокирующий уязвимые npm-пакеты

Разработчик создал Clawndom — открытый хук для Claude Code, который проверяет npm-пакеты на наличие уязвимостей в базе данных OSV.dev перед установкой, блокируя известные уязвимые пакеты, сохраняя при этом автономность агента.

OpenClawRadar
В репозитории GitHub представлены документы, описывающие 16 методов инъекции промптов и стратегии защиты для публичных AI-чатов.
Безопасность

В репозитории GitHub представлены документы, описывающие 16 методов инъекции промптов и стратегии защиты для публичных AI-чатов.

Разработчик опубликовал репозиторий на GitHub с описанием мер безопасности для публичных AI-чатов после того, как пользователи пытались использовать инъекцию промптов, атаки через ролевые игры, многоязычные уловки и полезные нагрузки в кодировке base64. Руководство включает навык кода Claude для тестирования всех 16 задокументированных техник инъекции.

OpenClawRadar