Comparativo 2025: Claude vs Gemini vs Codex vs Qwen vs MiniMax em Revisão de Código

Comparação de Desempenho em Revisão de Código por IA

Um experimento recente avaliou cinco modelos de IA de ponta para revisão de código usando 15 pull requests do Milvus, um banco de dados vetorial de código aberto. Cada PR continha bugs conhecidos que surgiram em produção após a mesclagem, fornecendo um conjunto de testes realista.

Modelos e Configuração

Os modelos testados foram:

Claude Opus 4.6
Gemini 3 Pro
GPT-5.2-Codex
Qwen-3.5-Plus
MiniMax-M2.5

O benchmark usou o Magpie, uma ferramenta de código aberto que prepara o contexto coletando código circundante, cadeias de chamadas e módulos relacionados antes de alimentar o modelo.

Níveis de Dificuldade dos Bugs

Os bugs foram categorizados por dificuldade:

L1: Visíveis apenas pelo diff (todos os modelos os detectaram, portanto excluídos da pontuação)
L2 (10 casos): Requer compreensão do código circundante (mudanças de interface, condições de corrida)
L3 (5 casos): Requer compreensão em nível de sistema (inconsistências entre módulos, compatibilidade de atualização)

Resultados por Modelo

Dois modos de avaliação foram usados:

Bruto: O modelo vê apenas o diff e o conteúdo do PR
R1: O Magpie fornece contexto circundante

Taxas gerais de detecção (apenas L2 + L3):

Claude: 53% bruto, 47% com contexto
Gemini: 13% bruto, 33% com contexto
Codex: 33% bruto, 27% com contexto
MiniMax: 27% bruto, 33% com contexto
Qwen: 33% bruto, 40% com contexto

Principais Descobertas

O Claude dominou a revisão bruta com 53% de detecção e perfeitos 5/5 em bugs L3. Ele se destaca em organizar seu próprio contexto, então contexto adicional realmente reduziu seu desempenho.

O Gemini teve desempenho fraco no modo bruto (13%), mas melhorou significativamente com contexto (33%), sugerindo que precisa de contexto fornecido antecipadamente.

O Qwen foi o melhor desempenho assistido por contexto com 40%, com a maior detecção de bugs L2 (5/10).

Resultados do Debate Adversário

Quando os modelos debateram entre si por cinco rodadas, a detecção de bugs saltou de 53% (melhor modelo individual) para 80%. Os bugs L3 mais difíceis atingiram 100% de detecção no modo de debate.

O experimento revela que diferentes modelos têm pontos fortes complementares: a meticulosidade do Claude, a análise focada em design do Gemini quando recebe contexto, o feedback concreto e acionável do Codex e o forte desempenho assistido por contexto do Qwen.

📖 Leia a fonte completa: HN AI Agents

Referência de Revisão de Código por IA: Claude, Gemini, Codex, Qwen e MiniMax Comparados

Comparação de Desempenho em Revisão de Código por IA

Modelos e Configuração

Níveis de Dificuldade dos Bugs

Resultados por Modelo

Principais Descobertas

Resultados do Debate Adversário

👀 See Also

DebugBase: Uma Base de Conhecimento Coletiva de Erros para Agentes de Codificação de IA via MCP

Framework de multiagente de código aberto extraído do vazamento do código do Claude

Orchino: Sistema de Orquestração Multiagente Local para Windows com Automação Paralela de Navegador e Interface do Usuário

Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST