Перекрестная модель цикла проверки для AI-агентов программирования выявляет критические недостатки планирования.

Как работает кросс-модельное ревью
Разработчик на r/ClaudeAI создал систему, которая решает распространённую проблему с ИИ-агентами для программирования, такими как Codex, Claude Code и Cursor: планы выполняются без предварительной проверки их предположений. Решение направляет каждый план через вторую модель ИИ с другой архитектурой и обучающими данными до начала выполнения.
Ключевые детали реализации
Модель-рецензент работает в режиме только для чтения и не может изменять код — она может только оспаривать план. Это ограничение критически важно, потому что «как только она сможет редактировать, она перестаёт быть критиком и начинает идти на компромиссы». Система запускает автоматический цикл с ограничением по раундам: планы возвращаются на доработку, если обнаружены проблемы, пока они не пройдут проверку или не достигнут лимита.
Что система выявляет
- Планы отката, которые фактически не откатывают изменения
- Схемы разрешений с реальными уязвимостями безопасности
- Контрольные точки ревью, принимающие решения о продолжении/остановке на основе устаревших данных
- Многоэтапные планы, которые кажутся логичными, пока вторая модель не пройдёт по всему процессу
Критические проектные решения
- Ограниченный контекст ревью предотвращает трату времени рецензента на чтение нерелевантных частей репозитория
- Персоны рецензента (риски поставки, воспроизводимость, производительность-стоимость, безопасность-соответствие) выявляют разные типы проблем
- Живая TUI-панель управления показывает фазу, раунд, вердикт, серьёзность, стоимость и историю в одном терминальном представлении
- Система работает с разными планировщиками: Claude Code использует нативный хук ExitPlanMode, а Codex и другие оркестраторы используют явный шлюз
Практические результаты
Разработчик использовал систему, чтобы помочь построить её саму: «Codex планировал, Claude рецензировал планы, и дизайн сходился за несколько раундов». Инструмент имеет лицензию MIT и доступен как rival-review на GitHub.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Представляем NetViews 2.3: надежный инструмент для диагностики сетей для macOS.
NetViews 2.3 объединяет обнаружение хостов, данные о Wi-Fi и мониторинг в реальном времени с упрощенным интерфейсом для лучшей диагностики сети на macOS.

Ouroboros добавляет режим интервью с менеджером проектов для Claude Code, чтобы сократить разрыв между спецификациями.
Теперь Ouroboros включает режим PM, который запускает управляемое интервью перед передачей задачи Claude Code, задавая вопросы о решаемой проблеме, целевой аудитории и важных ограничениях. Результатом является документ PRD/PM с целями, пользовательскими историями, ограничениями, критериями успеха, предположениями и отложенными задачами.

Инструмент мониторинга Claude Code передает логи сервера разработки в ИИ-автоисправления
Инструмент Monitor в Claude Code позволяет запускать dev-сервер в фоне, отслеживать логи с умными grep-фильтрами и автоматически обнаруживать ошибки, писать исправления и коммитить их — пока вы тестируете интерфейс.

Создание самосовершенствующегося цикла мечты с помощью Cron Jobs и Claude
Разработчик создал автономный цикл сновидений с помощью двух cron-задач: одна в 22:30 для исследования и размышлений, другая в 23:00 для обзора и планирования. Система сканирует arXiv, GitHub trending и Reddit, выявляет слабые места и предлагает конкретные улучшения.