4-слойная система самопроверки для поведенческой эволюции OpenClaw

Разработчик, использующий OpenClaw в качестве постоянного ИИ-ассистента в течение 6 недель, обнаружил повторяющуюся проблему: когда Claude проверяет собственное поведение, это создаёт слепые зоны, приводящие к повторяющимся ошибкам, таким как объявление исправлений "готовыми" без тестирования или описание запланированной работы с той же уверенностью, что и выполненной работы.
4-уровневая система аудита
Решение представляет собой 4-уровневую систему, предназначенную для поведенческой эволюции, а не для обучения модели. Веса не меняются, но рабочие инструкции становятся умнее благодаря этим уровням:
- Проверка после исправления: Исправление + Тестирование + Доказательство как один атомарный шаг. Никаких "исправлено" без доказательств.
- Анализ паттернов: Еженедельная задача cron, которая читает журнал ошибок в поисках кластеров (одна и та же ошибка 2+ раза = системная проблема).
- Внешнее зеркалирование: Передача сводок сессий Gemini или другой LLM с промптом "найди, к чему этот ассистент слеп". Разная архитектура создаёт разные слепые зоны.
- Ожидание vs Реальность: Ежедневная проверка для подтверждения, действительно ли вчерашние "исправленные" пункты остались исправленными.
Результаты и реализация
В первом реальном тесте Gemini обнаружила 2 паттерна, которые Claude полностью пропустил при самопроверке. Оба были реальными проблемами, которые не были бы выявлены изнутри системы.
Система включает защитные механизмы: человеческое одобрение для изменений поведения, запретные файлы и максимум 3 исправления за цикл. Код доступен на GitHub по адресу https://github.com/oscarsterling/reasoning-loop.
📖 Read the full source: r/openclaw
👀 Смотрите также

Бесплатный оптимизатор сессий Claude: оценщик токенов, компрессор промптов и планировщик сессий
Разработчик создал бесплатный инструмент без регистрации для управления лимитами использования Claude с тремя функциями: оценщик токенов для предварительного просмотра потребления промптов, компрессор промптов, сокращающий промпты на 40-60% за счёт удаления лишних фраз, и планировщик сессий, группирующий задачи для минимизации перезагрузки контекста.

Иллюзия завершённой работы в Claude Code: Почему анализ пути агента важнее, чем diff
Claude Code способен выдать чистый diff, пройти тесты и написать хорошее резюме, но при этом упустить реальное поведение, проблемы безопасности или архитектурные ограничения. Автор утверждает, что теперь необходимо проверять цепочку действий (планы, прочитанные файлы, выполненные команды, вывод тестов), а не только итоговый diff.

ClawNet: Одноранговая сеть ИИ-агентов без API-ключей
ClawNet — это одноранговая сеть, которая позволяет ИИ-агентам сотрудничать напрямую без API-ключей или платформенных сборов. Установка осуществляется через curl-скрипт, а возможности включают базар задач, экономику оболочки и сеть знаний.

KubeShark: Навык Kubernetes для Claude Code и Codex для обнаружения галлюцинированного YAML
KubeShark — это навык для Kubernetes от Claude Code и Codex, ориентированный на отказы, который ловит устаревшие API, неверно настроенные пробы, сломанные селекторы и другие распространённые AI-ошибки до того, как они попадут в продакшн.