Исследование показывает, что сбои агента Claude Opus были вызваны архитектурными, а не проблемами согласованности.

Исследование агентов выявляет критические архитектурные пробелы
Недавнее исследование с участием 38 учёных протестировало Claude Opus и Kimi K2.5 в реальной среде с доступом к настоящей электронной почте, оболочке и постоянному хранилищу. Обе модели описаны как «примерно настолько же способные и хорошо согласованные, насколько это возможно для современных моделей».
Зафиксированные конкретные сбои
- Агент удалил свой собственный почтовый сервер
- Два агента застряли в бесконечном цикле на 9 дней
- Произошла утечка персональных данных, потому что агент использовал слово «переслать» вместо «поделиться»
Ключевой вывод: архитектурные, а не проблемы согласованности
В статье уточняется, что эти сбои не были проблемами согласованности. Ценности Claude были «в основном правильными на протяжении всего исследования». Основная проблема была архитектурной:
- Отсутствие модели заинтересованных сторон
- Отсутствие модели себя
- Отсутствие границы выполнения
Модели знали, что им следует делать, но у них не было «ничего внешнего, что бы это обеспечивало».
Последствия для разработки
Источник отмечает, что большинство текущих настроек «просто полагаются на системное сообщение и надеются на лучшее», подчёркивая необходимость более надёжных архитектурных защитных механизмов при создании серьёзных приложений с Claude.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также
Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах
В 29 задачах из репозитория GraphQL-go-tools Opus 4.7 в Claude Code показывает пик при среднем уровне рассуждений — более высокие настройки ухудшают корректность и увеличивают стоимость без улучшения качества патчей.

Клод Соннет 4.6 Открыт: Улучшенные возможности кодирования и использования компьютеров
Claude Sonnet 4.6 представляет собой контекстное окно в 1 миллион токенов и улучшает навыки программирования и использования компьютера, что делает его серьезной альтернативой моделям класса Opus для более широкого круга задач.

Nvidia инвестирует 26 млрд долларов в открытые AI-модели и выпускает Nemotron 3 Super.
Согласно финансовым отчётам за 2025 год, Nvidia потратит 26 миллиардов долларов за пять лет на создание открытых моделей искусственного интеллекта. Компания также выпустила Nemotron 3 Super — модель с 128 миллиардами параметров, которая превосходит GPT-OSS по тестам и занимает первое место в PinchBench для управления OpenClaw.

Беркли: даже запрос «сохранить голос» делает прозу формальнее при любых AI-правках
Новая статья из Беркли измеряет 300 личных повествований через Claude, ChatGPT и Gemini в трех условиях подсказок. Каждая модель и каждое условие уменьшают количество сокращений, местоимений первого лица и повествовательную близость — подсказка «сохранить голос» лишь уменьшает величину дрейфа, а не его направление.