Punto de Referencia de Revisión de Código con IA: Comparación de Claude, Gemini, Codex, Qwen y MiniMax

Comparación del Rendimiento de Revisión de Código con IA
Un experimento reciente evaluó cinco modelos de IA principales para revisión de código utilizando 15 solicitudes de extracción de Milvus, una base de datos vectorial de código abierto. Cada PR contenía errores conocidos que surgieron en producción después de fusionarse, proporcionando un conjunto de pruebas realista.
Modelos y Configuración
Los modelos evaluados fueron:
- Claude Opus 4.6
- Gemini 3 Pro
- GPT-5.2-Codex
- Qwen-3.5-Plus
- MiniMax-M2.5
El benchmark utilizó Magpie, una herramienta de código abierto que prepara el contexto extrayendo el código circundante, cadenas de llamadas y módulos relacionados antes de alimentarlo al modelo.
Niveles de Dificultad de Errores
Los errores se categorizaron por dificultad:
- L1: Visibles solo desde el diff (todos los modelos los detectaron, por lo que se excluyeron de la puntuación)
- L2 (10 casos): Requiere comprensión del código circundante (cambios de interfaz, condiciones de carrera de concurrencia)
- L3 (5 casos): Requiere comprensión a nivel de sistema (inconsistencias entre módulos, compatibilidad de actualización)
Resultados por Modelo
Se utilizaron dos modos de evaluación:
- Crudo: El modelo solo ve el diff y contenido del PR
- R1: Magpie proporciona contexto circundante
Tasas de detección generales (solo L2 + L3):
- Claude: 53% crudo, 47% con contexto
- Gemini: 13% crudo, 33% con contexto
- Codex: 33% crudo, 27% con contexto
- MiniMax: 27% crudo, 33% con contexto
- Qwen: 33% crudo, 40% con contexto
Hallazgos Clave
Claude dominó la revisión cruda con 53% de detección y perfecto 5/5 en errores L3. Destaca en organizar su propio contexto, por lo que el contexto adicional realmente redujo su rendimiento.
Gemini tuvo un rendimiento pobre en modo crudo (13%) pero mejoró significativamente con contexto (33%), sugiriendo que necesita contexto proporcionado de antemano.
Qwen fue el mejor desempeño asistido por contexto con 40%, con la mayor detección de errores L2 (5/10).
Resultados del Debate Adversario
Cuando los modelos debatieron entre sí durante cinco rondas, la detección de errores saltó del 53% (mejor modelo individual) al 80%. Los errores L3 más difíciles alcanzaron 100% de detección en modo debate.
El experimento revela que diferentes modelos tienen fortalezas complementarias: la exhaustividad de Claude, el análisis centrado en diseño de Gemini cuando se le da contexto, la retroalimentación concreta y accionable de Codex, y el fuerte rendimiento asistido por contexto de Qwen.
📖 Read the full source: HN AI Agents
👀 Ver también

Sylve: Un Plano de Gestión de FreeBSD para Virtualización, Contenedores y Almacenamiento
Sylve es un plano de gestión con licencia BSD-2 para FreeBSD que proporciona control unificado sobre máquinas virtuales Bhyve, FreeBSD Jails, almacenamiento ZFS y redes. Utiliza un modelo de consenso RAFT para la agrupación en clústeres e incluye gestión de recursos compartidos de Samba con automatización de instantáneas ZFS.

bad-ass-mcp: MCP gratuito y de código abierto para control de GUI de escritorio nativo mediante API de Accesibilidad
bad-ass-mcp es un servidor MCP de código abierto que permite a Claude y otros agentes de IA controlar escritorios macOS, Windows y Linux utilizando la capa de accesibilidad nativa — sin capturas de pantalla, sin bucles de mirar-mover-mirar. Alternativa gratuita a Computer Use, Operator o UiPath.

Deblank: Herramienta para Eliminar el Formato de Código y Reducir Tokens en LLM
Deblank es una herramienta de código abierto que elimina el formato del código (sangría, espacios en blanco, saltos de línea) antes de enviarlo a LLMs, reduciendo tokens en aproximadamente un 30% para Java/C++ y un 9% para Python con una latencia de ~76ms. Es compatible con Python, Java, C/C++, C#, JS/TS y Go.

Relvy mejora la precisión del análisis de causa raíz de Claude en 12 puntos porcentuales en el benchmark OpenRCA.
Relvy, una herramienta que automatiza los manuales de procedimientos, ha demostrado una mejora de 12 puntos porcentuales en la precisión de Claude en el benchmark OpenRCA para el análisis de causa raíz. Los resultados se compartieron a través de una publicación en Hacker News con 11 puntos.