Перекрестная модель цикла проверки для AI-агентов программирования выявляет критические недостатки планирования.

✍️ OpenClawRadar📅 Опубликовано: 16 апреля 2026 г.🔗 Source
Перекрестная модель цикла проверки для AI-агентов программирования выявляет критические недостатки планирования.
Ad

Как работает кросс-модельное ревью

Разработчик на r/ClaudeAI создал систему, которая решает распространённую проблему с ИИ-агентами для программирования, такими как Codex, Claude Code и Cursor: планы выполняются без предварительной проверки их предположений. Решение направляет каждый план через вторую модель ИИ с другой архитектурой и обучающими данными до начала выполнения.

Ключевые детали реализации

Модель-рецензент работает в режиме только для чтения и не может изменять код — она может только оспаривать план. Это ограничение критически важно, потому что «как только она сможет редактировать, она перестаёт быть критиком и начинает идти на компромиссы». Система запускает автоматический цикл с ограничением по раундам: планы возвращаются на доработку, если обнаружены проблемы, пока они не пройдут проверку или не достигнут лимита.

Что система выявляет

  • Планы отката, которые фактически не откатывают изменения
  • Схемы разрешений с реальными уязвимостями безопасности
  • Контрольные точки ревью, принимающие решения о продолжении/остановке на основе устаревших данных
  • Многоэтапные планы, которые кажутся логичными, пока вторая модель не пройдёт по всему процессу
Ad

Критические проектные решения

  • Ограниченный контекст ревью предотвращает трату времени рецензента на чтение нерелевантных частей репозитория
  • Персоны рецензента (риски поставки, воспроизводимость, производительность-стоимость, безопасность-соответствие) выявляют разные типы проблем
  • Живая TUI-панель управления показывает фазу, раунд, вердикт, серьёзность, стоимость и историю в одном терминальном представлении
  • Система работает с разными планировщиками: Claude Code использует нативный хук ExitPlanMode, а Codex и другие оркестраторы используют явный шлюз

Практические результаты

Разработчик использовал систему, чтобы помочь построить её саму: «Codex планировал, Claude рецензировал планы, и дизайн сходился за несколько раундов». Инструмент имеет лицензию MIT и доступен как rival-review на GitHub.

📖 Read the full source: r/ClaudeAI

Ad

👀 Смотрите также

Представляем NetViews 2.3: надежный инструмент для диагностики сетей для macOS.
Инструменты

Представляем NetViews 2.3: надежный инструмент для диагностики сетей для macOS.

NetViews 2.3 объединяет обнаружение хостов, данные о Wi-Fi и мониторинг в реальном времени с упрощенным интерфейсом для лучшей диагностики сети на macOS.

OpenClawRadar
Ouroboros добавляет режим интервью с менеджером проектов для Claude Code, чтобы сократить разрыв между спецификациями.
Инструменты

Ouroboros добавляет режим интервью с менеджером проектов для Claude Code, чтобы сократить разрыв между спецификациями.

Теперь Ouroboros включает режим PM, который запускает управляемое интервью перед передачей задачи Claude Code, задавая вопросы о решаемой проблеме, целевой аудитории и важных ограничениях. Результатом является документ PRD/PM с целями, пользовательскими историями, ограничениями, критериями успеха, предположениями и отложенными задачами.

OpenClawRadar
Инструмент мониторинга Claude Code передает логи сервера разработки в ИИ-автоисправления
Инструменты

Инструмент мониторинга Claude Code передает логи сервера разработки в ИИ-автоисправления

Инструмент Monitor в Claude Code позволяет запускать dev-сервер в фоне, отслеживать логи с умными grep-фильтрами и автоматически обнаруживать ошибки, писать исправления и коммитить их — пока вы тестируете интерфейс.

OpenClawRadar
Создание самосовершенствующегося цикла мечты с помощью Cron Jobs и Claude
Инструменты

Создание самосовершенствующегося цикла мечты с помощью Cron Jobs и Claude

Разработчик создал автономный цикл сновидений с помощью двух cron-задач: одна в 22:30 для исследования и размышлений, другая в 23:00 для обзора и планирования. Система сканирует arXiv, GitHub trending и Reddit, выявляет слабые места и предлагает конкретные улучшения.

OpenClawRadar