Соперничающий обзор: Межмодельный цикл оценки планов ИИ-агентов

✍️ OpenClawRadar📅 Опубликовано: 15 апреля 2026 г.🔗 Source

Что это такое

Rival-review — это инструмент, который решает распространённую проблему, когда ИИ-агенты кодирования создают правдоподобные планы, которые начинают выполняться без должной проверки на устойчивость. Основная идея проста: модель, которая предлагает план, не является моделью, которая его проверяет.

Как это работает

Цикл прост:

Планировщик создаёт план
Claude проверяет его в рамках заданного контекста
Проблемы возвращаются на доработку
Цикл продолжается, пока проверка не пройдена или не достигнут лимит итераций

Вторая модель проверяет план в режиме только для чтения перед началом реализации. Эта перекрёстная проверка выявляет не просто «шлифовку плана»:

Планы отката, которые фактически не откатывают изменения
Схемы разрешений с реальными уязвимостями безопасности
Контрольные точки, принимающие решения на основе устаревших данных
Многошаговые планы, которые кажутся согласованными, пока вторая модель не пройдёт весь поток

Ключевые проектные решения

Несколько проектных решений оказались очень важными:

Проверяющая модель должна работать в режиме только для чтения
Автоматический цикл требует жёсткого ограничения по итерациям
Ограниченный контекст имеет большое значение
Живая панель управления делает цикл проверки наблюдаемым, а не скрытым

Детали реализации

Инструмент работает с разными планировщиками:

Claude Code может использовать встроенный хук выхода из планирования
Codex и другие оркестраторы могут использовать явную контрольную точку планировщика

Создатель использовал его для помощи в собственной разработке: Codex планировал, Claude проверял, и дизайн сходился за несколько итераций.

Доступность

Инструмент имеет лицензию MIT и доступен на GitHub по адресу github.com/alexw5702-afk/rival-review.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Ory Lumen: Плагин с открытым исходным кодом для локального семантического поиска в Claude Code

Ory Lumen — это плагин для Claude Code, который индексирует кодовые базы с использованием Ollama с моделью векторного представления кода и SQLite-vec для семантического поиска, решая проблемы производительности Claude Code при работе с большими кодовыми базами. Инструмент бесплатный, работает только локально и включает в себя тестовый набор в стиле SWE для воспроизводимых результатов.

23 мар. 2026 г., 09:45 UTC

OpenClawRadar

Инструменты

Оптимизация ANE посредством экспериментов с ИИ, управляемым через телефон, демонстрирует преимущества слияния ядер.

Разработчик провел 55 экспериментов по оптимизации Apple Neural Engine, управляя процессом со своего телефона с помощью Claude для мозгового штурма. Ключевые улучшения включали объединение 3 ядер ANE в 1 мега-ядро, что снизило потери при валидации с 3.75 до 2.49 и время шага с 176 мс до 96 мс.

16 апр. 2026 г., 16:30 UTC

OpenClawRadar

Инструменты

PocketBot: локальный автопилот с ИИ для iOS с использованием App Intents и инференса на устройстве

PocketBot — это приложение для iOS, которое запускает квантованную 3B-модель Llama локально на Neural Engine iPhone через Metal, используя фреймворки Apple AppIntents и CoreLocation для создания событийно-управляемых автоматизаций без передачи данных в облако.

18 мар. 2026 г., 00:45 UTC

OpenClawRadar

Инструменты

Результаты PinchBench: Первый эталонный тест для ИИ-агентов кодирования, специфичных для OpenClaw

Первый специализированный бенчмарк OpenClaw, PinchBench, ранжирует 32 модели ИИ по проценту успешных решений, стоимости и скорости, где Google Gemini-3-Flash-Preview лидирует с 95,1% успеха за $0,72.

8 мар. 2026 г., 09:45 UTC

OpenClawRadar