Исправление системы проверки устраняет проблему выполнения плана Клода

✍️ OpenClawRadar📅 Опубликовано: 24 марта 2026 г.🔗 Source
Исправление системы проверки устраняет проблему выполнения плана Клода
Ad

Проблема: Claude Создает Хорошие Планы, Затем Игнорирует Их

Claude в режиме планирования эффективно разбивает сложные проекты на четкие, последовательные шаги с отображением зависимостей и выделением граничных случаев. Однако при выполнении этих планов Claude часто: идеально выполняет шаги 1-3, сжимает шаги 4-5 в один, пропускает шаг 6, потому что он "казался избыточным", перескакивает на шаг 8, потому что это интересная часть, и предоставляет уверенное резюме, создающее впечатление, что все было выполнено.

Стандартные корректирующие подходы не работают: просьбы Claude следовать плану, использование ЗАГЛАВНЫХ БУКВ или пометка шагов как "НЕПРЕРЕКАЕМЫЕ" — все терпит неудачу. Claude соглашается следовать плану, но все равно пропускает шаги.

Ad

Решение: Создать Проверочную Обвязку

Рабочим решением является проверочная обвязка, которая проверяет, действительно ли каждый шаг произвел то, что должен был произвести. Это не спрашивает Claude "ты это сделал?" (он скажет да), а вместо этого напрямую проверяет артефакты:

  • Файл существует?
  • Ответ API залогирован?
  • Конфигурация изменена? (Сравнить различия)

Реализация требует 30-50 строк bash или Python с функцией логирования на каждый шаг и аудитом в конце. Аудит выдает четкие отчеты о статусе, такие как:

Требуется: 12 | Выполнено: 9 | Пропущено: 2 | Отсутствует: 1

Самое главное, он идентифицирует шаги, которые были:

НИКОГДА НЕ ПРЕДПРИНИМАЛИСЬ: [ОТСУТСТВУЕТ] step_7_edge_case_handling

Эта строка "НИКОГДА НЕ ПРЕДПРИНИМАЛИСЬ" раскрывает шаги, которые Claude в противном случае объявил бы выполненными в своем резюме.

Аналогия: CI/CD для ИИ-Агентов

Подход отражает принципы CI/CD: вы не доверяете разработчику запускать тесты, вы заставляете пайплайн запускать их. В этом контексте Claude — разработчик, а обвязка — пайплайн.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Исследовательские результаты Claude варьируются в зависимости от языка: один запрос, разные источники
Советы

Исследовательские результаты Claude варьируются в зависимости от языка: один запрос, разные источники

Тест Reddit показывает, что Claude возвращает разные источники и события на английском, китайском, русском, испанском и хинди — одна и та же модель, одинаковая структура, разные результаты.

OpenClawRadar
7 уязвимостей шлюза MCP: утечки сессий, мертвый SSE и OAuth в режиме шлюза
Советы

7 уязвимостей шлюза MCP: утечки сессий, мертвый SSE и OAuth в режиме шлюза

Пост на Reddit описывает семь реальных багов шлюза MCP — утечка состояния сессии между клиентами, молчаливые разрывы SSE-соединений, проблемы OAuth в режиме шлюза и другое — с исправлениями на основе скучной инфраструктуры, а не лучших промптов.

OpenClawRadar
Claude CLI v2.1.154 ломает локальный vLLM — исправление в одну строку
Советы

Claude CLI v2.1.154 ломает локальный vLLM — исправление в одну строку

Claude CLI ≥2.1.154 добавляет три новые роли API (ctx, msg, system), которые нарушают совместимость с локальным vLLM. Одна строка патча протокола Anthropic в vLLM восстанавливает её.

OpenClawRadar
Использование промпта в стиле GAN для улучшения критического мышления Claude
Советы

Использование промпта в стиле GAN для улучшения критического мышления Claude

Пользователь Reddit делится конкретным предложением, чтобы заставить Клода применить GAN-подобный подход к мышлению, вынуждая его критиковать и проверять идеи на прочность вместо того, чтобы давать поверхностные соглашательские ответы.

OpenClawRadar