Соперничающий обзор: Межмодельный цикл оценки планов ИИ-агентов

Что это такое
Rival-review — это инструмент, который решает распространённую проблему, когда ИИ-агенты кодирования создают правдоподобные планы, которые начинают выполняться без должной проверки на устойчивость. Основная идея проста: модель, которая предлагает план, не является моделью, которая его проверяет.
Как это работает
Цикл прост:
- Планировщик создаёт план
- Claude проверяет его в рамках заданного контекста
- Проблемы возвращаются на доработку
- Цикл продолжается, пока проверка не пройдена или не достигнут лимит итераций
Вторая модель проверяет план в режиме только для чтения перед началом реализации. Эта перекрёстная проверка выявляет не просто «шлифовку плана»:
- Планы отката, которые фактически не откатывают изменения
- Схемы разрешений с реальными уязвимостями безопасности
- Контрольные точки, принимающие решения на основе устаревших данных
- Многошаговые планы, которые кажутся согласованными, пока вторая модель не пройдёт весь поток
Ключевые проектные решения
Несколько проектных решений оказались очень важными:
- Проверяющая модель должна работать в режиме только для чтения
- Автоматический цикл требует жёсткого ограничения по итерациям
- Ограниченный контекст имеет большое значение
- Живая панель управления делает цикл проверки наблюдаемым, а не скрытым
Детали реализации
Инструмент работает с разными планировщиками:
- Claude Code может использовать встроенный хук выхода из планирования
- Codex и другие оркестраторы могут использовать явную контрольную точку планировщика
Создатель использовал его для помощи в собственной разработке: Codex планировал, Claude проверял, и дизайн сходился за несколько итераций.
Доступность
Инструмент имеет лицензию MIT и доступен на GitHub по адресу github.com/alexw5702-afk/rival-review.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

RunAnywhere RCLI: Голосовой ИИ-конвейер на устройстве для Apple Silicon
RunAnywhere выпустила RCLI, открытый голосовой AI-пайплайн для macOS, который полностью работает на устройствах Apple Silicon, выполняя STT, LLM и TTS. Инструмент использует их проприетарный движок вывода MetalRT и заявляет о значительном повышении производительности по сравнению с существующими решениями.

memv MCP Сервер: постоянная структурированная память для AI-агентов
memv, открытый Python-слой памяти для агентов, теперь поставляется с MCP-сервером. Он предоставляет пять инструментов для постоянной структурированной памяти с изоляцией по пользователям и извлечением без обязательного использования LLM.

Использование локальной LLM в качестве суб-агента для кодирования Claude для снижения расхода контекста
Пользователь Reddit демонстрирует, как Claude Code может делегировать задачи локальной LLM, работающей через LM Studio, сохраняя содержимое файлов вне контекста Claude. Настройка использует Python-скрипт объёмом около 120 строк с API вызова инструментов LM Studio для локальной обработки файловых операций.

Куратор Claude-Skills ищет отзывы о библиотеке из 181 навыка для агентов
Реза, сопровождающий проекта claude-skills, просит сообщество оставить отзывы о своей библиотеке с открытым исходным кодом, которая содержит 181 навык агента, 250 инструментов Python и 15 персонажей агентов, работающих в 11 инструментах для ИИ-кодирования. Он задаётся вопросом, эффективен ли подход с изолированными навыками, и хочет получить мнения о недостающих навыках, агентах на основе персонажей и интеграциях инструментов.