Rival-Review: Un Bucle de Revisión Cruzada de Modelos para Planes de Agentes de IA

Qué es
Rival-review es una herramienta que aborda un patrón común en el que los agentes de codificación de IA escriben planes que suenan plausibles y comienzan su ejecución sin haber sido sometidos a pruebas de presión adecuadas. La idea central es simple: el modelo que propone el plan no es el modelo que lo revisa.
Cómo funciona
El ciclo es sencillo:
- El planificador escribe un plan
- Claude lo revisa en función del contexto delimitado
- Los problemas se devuelven para su revisión
- El ciclo continúa hasta que se aprueba la puerta de revisión o se alcanza el número máximo de rondas
El segundo modelo audita el plan en una pasada de solo lectura antes de que comience la implementación. Esta revisión entre modelos detecta problemas que no son solo "pulido del plan":
- Planes de reversión que en realidad no revierten
- Diseños de permisos con agujeros de seguridad reales
- Puertas de revisión que toman decisiones de continuar/detener basadas en estados obsoletos
- Planes de múltiples pasos que suenan coherentes hasta que un segundo modelo recorre todo el flujo
Decisiones de diseño clave
Varias decisiones de diseño terminaron siendo muy importantes:
- El revisor debe ser de solo lectura
- El ciclo automático necesita un límite estricto de rondas
- El contexto delimitado importa mucho
- Un panel de terminal en vivo hace que el ciclo de revisión sea inspeccionable en lugar de opaco
Detalles de implementación
La herramienta funciona con diferentes planificadores:
- Claude Code puede usar un gancho nativo de salida del plan
- Codex y otros orquestadores pueden usar una puerta de planificación explícita
El creador la usó para ayudar a construirla misma: Codex planificó, Claude revisó, y el diseño convergió a través de múltiples rondas.
Disponibilidad
La herramienta tiene licencia MIT y está disponible en GitHub en github.com/alexw5702-afk/rival-review.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Plugin Oficial de Telegram para Claude Code: Notas de Configuración y Migración desde OpenClaw
Un desarrollador migró de OpenClaw a la integración oficial de Telegram de Claude Code, documentando el proceso de configuración y creando una habilidad de migración de código abierto. La integración se conecta mediante tokens de BotFather y ofrece mejor eficiencia de tokens y comunicación más limpia.

Cambios en el Flujo de Trabajo y Observaciones de Rendimiento de Claude Code UltraPlan
Claude Code UltraPlan presenta un flujo de trabajo de planificación basado en la nube con lanzamiento desde terminal, interfaz de revisión en navegador y opciones de ejecución. Las pruebas mostraron ejecuciones repetidas aproximadamente 2 veces más rápidas que la planificación local, con mejoras de calidad variables.

Historial de ELO del modelo Arena AI rastrea la degradación del rendimiento de LLM a lo largo del tiempo
Un panel en vivo visualiza las puntuaciones ELO de los modelos insignia de los principales laboratorios de IA, revelando una degradación gradual del rendimiento y saltos repentinos en los nuevos lanzamientos. La herramienta traza dinámicamente una curva por laboratorio, rastreando el modelo mejor valorado.

Cognithor: Un Sistema Operativo de Agentes Local-First con Arquitectura Trinity PGE
Cognithor es un sistema operativo de agente autónomo completamente local, desarrollado durante un año con 16 fases de desarrollo. Cuenta con la arquitectura Trinidad PGE (Planificador → Guardián → Ejecutor), más de 11.609 pruebas con 89% de cobertura, y soporta 16 proveedores de LLM incluyendo Ollama y LM Studio.