El benchmark Claude Code revela un punto ciego en los jueces de IA: errores de pipeline atribuidos erróneamente a la capacidad del modelo.

✍️ OpenClawRadar📅 Publicado: 16 de abril de 2026🔗 Source
El benchmark Claude Code revela un punto ciego en los jueces de IA: errores de pipeline atribuidos erróneamente a la capacidad del modelo.
Ad

Configuración de la evaluación comparativa y resultados iniciales

Un desarrollador ejecutó una evaluación comparativa controlada en tres pilas de agentes de codificación utilizando Claude Code (Opus 4.6) como evaluador autónomo. La evaluación comparativa probó: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro, y Codex CLI + GPT-5.4. Cada nueva prueba fue una sesión nueva sin memoria entre sesiones, utilizando la instrucción: "ejecuta el plan de evaluación comparativa, recopila artefactos, escribe un informe".

En las dos primeras ejecuciones, OpenCode + MiniMax obtuvo 15/60 y 16/60 respectivamente. Los informes generados automáticamente declararon: "Consistente con resultados anteriores: ejecución rápida pero sin resultados de código significativos" y "Consistente: MiniMax no puede implementar la tarea. El modelo puede carecer de la capacidad de leer archivos externos y producir cambios de código en este código base de Rust."

El descubrimiento del error

Después de dos sesiones que produjeron veredictos idénticos culpando al modelo, el desarrollador envió una instrucción a una sesión nueva: "profundiza más, revisa los registros del demonio antes de reintentar". La nueva sesión rastreó el problema hasta un archivo de desbordamiento en ~/.orchestratord/logs/<task_id>.txt. El paso del plan estaba produciendo 50 KB de contexto útil, pero el entorno aislado de OpenCode solo permitía lecturas dentro del directorio del espacio de trabajo por defecto. Dado que el archivo de desbordamiento estaba fuera del espacio de trabajo, el paso de implementación recibió una cadena vacía en lugar del plan.

La sesión presentó una corrección de configuración de una línea (moviendo la ruta del desbordamiento dentro del espacio de trabajo) y volvió a ejecutar la evaluación comparativa. Después de la corrección, MiniMax produjo 219 líneas de código incluyendo una estructura RetryConfig y una función auxiliar connect_with_retry, obteniendo 18/60. Los problemas restantes fueron debilidades reales del modelo: cuatro errores de compilación por incompatibilidad de tipos en las pruebas unitarias.

Ad

Implicaciones para la evaluación con IA

El incidente revela un punto ciego crítico en los jueces de IA autónomos: no se preguntan "¿está roto mi proceso?" incluso cuando su propio análisis identifica síntomas como "puede carecer de la capacidad de leer archivos externos". Las dos primeras sesiones ejecutaron la evaluación comparativa completa de principio a fin y produjeron informes exhaustivos, pero nunca revisaron los registros del demonio por su cuenta. Solo cuando se les dijo explícitamente que investigaran, la tercera sesión descubrió el error de configuración.

Este modo de fallo es particularmente relevante ya que LLM-como-juez se ha convertido en la metodología de evaluación predeterminada para muchas evaluaciones comparativas de agentes, incluyendo puntuación automática estilo arena, sistemas internos de prueba A/B y modelado de recompensas. El desarrollador señala: "Estuve a un solo golpe de tecla humano de publicar una evaluación comparativa que atribuía erróneamente con confianza un error del entorno aislado a un modelo."

Otros resultados de la evaluación comparativa

Codex + GPT-5.4 ocupó el primer lugar con 50/60, aunque tuvo una tasa de éxito de step_finished de solo el 25% (tres de cuatro pasos del orquestador reportaron fallo). El desarrollador señala esta rareza sin mayor explicación en el texto fuente proporcionado.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también