Иллюзия завершённой работы в Claude Code: Почему анализ пути агента важнее, чем diff

Пост на r/ClaudeAI утверждает, что по мере того, как Claude Code (и аналогичные инструменты для агентного кодирования) становятся более автономными, традиционный код-ревью итогового diff перестаёт быть достаточным. Автор, Ill_Particular_3385, предупреждает о "разрыве доверия": агент может выдать чистый diff, хорошее резюме и пройти тесты, но всё равно упустить реальное поведение, проблемы безопасности, архитектурные ограничения или крайние случаи. "Агент остановился" и "это безопасно для слияния" — не одно и то же.
Что меняется с агентными рабочими процессами
Claude Code теперь может:
- Исследовать кодовую базу
- Планировать изменения
- Редактировать файлы
- Запускать команды
- Создавать PR
- Работать в параллельных сессиях
- Резюмировать свои действия
Что должна включать улучшенная поверхность для ревью
Автор предлагает, чтобы инструменты агентного кодирования предоставляли больше структурированных данных для ревью, в том числе:
- Исходная задача
- План
- Прочитанные файлы
- Изменённые файлы
- Выполненные команды
- Вывод тестов
- Изменения зависимостей
- Согласования и проверки безопасности
- Особенно что не было проверено
Практические выводы для разработчиков
Если вы используете Claude Code или подобные инструменты, спросите себя: вы в основном доверяете итоговому diff или также пытаетесь проверить путь, который прошёл агент? Пост предполагает, что внедрение модели проверки всей цепочки действий агента, а не только результата, становится необходимым для безопасности и корректности.
Автор также ссылается на более развёрнутое эссе (https://cate.cero-ai.com/blog/illusion-of-finished-work) и предложение по обработке этого процесса ревью (https://github.com/0-AI-UG/cate).
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

Трепан: Локальный аудитор безопасности VS Code для кода, созданного ИИ
Trepan — это расширение с открытым исходным кодом для VS Code, которое выступает в роли защитника безопасности для предложений кода, сгенерированных ИИ. Оно использует Ollama для проведения локальных проверок безопасности на соответствие правилам конкретного проекта в файле .trepan/system_rules.md.

Бенчмарк: Gemma4 12B против квантованной Qwen3 8B на Mac Mini с 24 ГБ памяти.
Разработчик протестировал Gemma4 12B против Qwen3:8b-q4_K_M на Mac Mini с 24 ГБ памяти, используя два промпта. Qwen3 обрабатывал промпты в 4-5 раз быстрее, в то время как Gemma4 генерировала вывод немного быстрее.

Узкое место в параллельных ИИ-агентах: очередь человеческого одобрения
Разработчик, запускающий параллельные агенты Claude Code, описывает «bottleself» — точку, где параллелизм перестает увеличивать результат и начинает создавать очередь запросов на одобрение. Его решение: планировщик, который разбивает цели на подзадачи, запускает агентов и обращается к человеку только в случае неразрешимых решений.
Использование враждебного чата с Клодом для выявления неоднозначностей на старте до того, как они вам дорого обойдутся
Разработчик добавил второй чат Claude, единственная задача которого — состязательно проверять вводные на неоднозначные спецификации и скрытые сбои, что позволило сэкономить, по оценкам, $150-400 на переделках в Claude Code в рамках фазы проекта.