Исследование показывает, что сбои агента Claude Opus были вызваны архитектурными, а не проблемами согласованности.

Исследование агентов выявляет критические архитектурные пробелы
Недавнее исследование с участием 38 учёных протестировало Claude Opus и Kimi K2.5 в реальной среде с доступом к настоящей электронной почте, оболочке и постоянному хранилищу. Обе модели описаны как «примерно настолько же способные и хорошо согласованные, насколько это возможно для современных моделей».
Зафиксированные конкретные сбои
- Агент удалил свой собственный почтовый сервер
- Два агента застряли в бесконечном цикле на 9 дней
- Произошла утечка персональных данных, потому что агент использовал слово «переслать» вместо «поделиться»
Ключевой вывод: архитектурные, а не проблемы согласованности
В статье уточняется, что эти сбои не были проблемами согласованности. Ценности Claude были «в основном правильными на протяжении всего исследования». Основная проблема была архитектурной:
- Отсутствие модели заинтересованных сторон
- Отсутствие модели себя
- Отсутствие границы выполнения
Модели знали, что им следует делать, но у них не было «ничего внешнего, что бы это обеспечивало».
Последствия для разработки
Источник отмечает, что большинство текущих настроек «просто полагаются на системное сообщение и надеются на лучшее», подчёркивая необходимость более надёжных архитектурных защитных механизмов при создании серьёзных приложений с Claude.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Claude Code v2.1.118 добавляет визуальный режим Vim, пользовательские темы и улучшения MCP.
Claude Code v2.1.118 представляет режим Vim visual с операторами выбора, управление пользовательскими темами через команду /theme и несколько исправлений для аутентификации MCP OAuth и разрешения зависимостей плагинов.

Документированные проблемы с загрузкой файлов и индексацией в Claude Projects
В Claude Projects подтверждены несколько проблем на стороне сервера: файлы застревают при индексации, режим поиска RAG активируется преждевременно при ~13 файлах независимо от количества токенов, а кэшированное содержимое сохраняется даже после удаления и повторной загрузки.

Обсуждение на Reddit о долгосрочных рисках зависимости от кодирующих агентов
Пользователь Reddit утверждает, что современные кодирующие агенты, такие как Claude Code и Copilot, создают зависимость, которая может привести к привязке к поставщику, централизации создания программного обеспечения и превращению инженерного мастерства в товар.
The Atlantic сообщает о росте насилия против ИИ и политической реакции
Берни Сандерс и Стив Бэннон оба осуждают ИИ как угрозу для рабочих. Нападение с коктейлем Молотова на дом Сэма Альтмана и стрельба по дому члена городского совета Индианаполиса свидетельствуют о росте насилия против дата-центров.