Benchmark IA Revisión Código: Claude vs Gemini vs Codex

Comparación del Rendimiento de Revisión de Código con IA

Un experimento reciente evaluó cinco modelos de IA principales para revisión de código utilizando 15 solicitudes de extracción de Milvus, una base de datos vectorial de código abierto. Cada PR contenía errores conocidos que surgieron en producción después de fusionarse, proporcionando un conjunto de pruebas realista.

Modelos y Configuración

Los modelos evaluados fueron:

Claude Opus 4.6
Gemini 3 Pro
GPT-5.2-Codex
Qwen-3.5-Plus
MiniMax-M2.5

El benchmark utilizó Magpie, una herramienta de código abierto que prepara el contexto extrayendo el código circundante, cadenas de llamadas y módulos relacionados antes de alimentarlo al modelo.

Niveles de Dificultad de Errores

Los errores se categorizaron por dificultad:

L1: Visibles solo desde el diff (todos los modelos los detectaron, por lo que se excluyeron de la puntuación)
L2 (10 casos): Requiere comprensión del código circundante (cambios de interfaz, condiciones de carrera de concurrencia)
L3 (5 casos): Requiere comprensión a nivel de sistema (inconsistencias entre módulos, compatibilidad de actualización)

Resultados por Modelo

Se utilizaron dos modos de evaluación:

Crudo: El modelo solo ve el diff y contenido del PR
R1: Magpie proporciona contexto circundante

Tasas de detección generales (solo L2 + L3):

Claude: 53% crudo, 47% con contexto
Gemini: 13% crudo, 33% con contexto
Codex: 33% crudo, 27% con contexto
MiniMax: 27% crudo, 33% con contexto
Qwen: 33% crudo, 40% con contexto

Hallazgos Clave

Claude dominó la revisión cruda con 53% de detección y perfecto 5/5 en errores L3. Destaca en organizar su propio contexto, por lo que el contexto adicional realmente redujo su rendimiento.

Gemini tuvo un rendimiento pobre en modo crudo (13%) pero mejoró significativamente con contexto (33%), sugiriendo que necesita contexto proporcionado de antemano.

Qwen fue el mejor desempeño asistido por contexto con 40%, con la mayor detección de errores L2 (5/10).

Resultados del Debate Adversario

Cuando los modelos debatieron entre sí durante cinco rondas, la detección de errores saltó del 53% (mejor modelo individual) al 80%. Los errores L3 más difíciles alcanzaron 100% de detección en modo debate.

El experimento revela que diferentes modelos tienen fortalezas complementarias: la exhaustividad de Claude, el análisis centrado en diseño de Gemini cuando se le da contexto, la retroalimentación concreta y accionable de Codex, y el fuerte rendimiento asistido por contexto de Qwen.

📖 Read the full source: HN AI Agents