Referência de Revisão de Código por IA: Claude, Gemini, Codex, Qwen e MiniMax Comparados

✍️ OpenClawRadar📅 Publicado: February 27, 2026🔗 Source
Referência de Revisão de Código por IA: Claude, Gemini, Codex, Qwen e MiniMax Comparados
Ad

Comparação de Desempenho em Revisão de Código por IA

Um experimento recente avaliou cinco modelos de IA de ponta para revisão de código usando 15 pull requests do Milvus, um banco de dados vetorial de código aberto. Cada PR continha bugs conhecidos que surgiram em produção após a mesclagem, fornecendo um conjunto de testes realista.

Modelos e Configuração

Os modelos testados foram:

  • Claude Opus 4.6
  • Gemini 3 Pro
  • GPT-5.2-Codex
  • Qwen-3.5-Plus
  • MiniMax-M2.5

O benchmark usou o Magpie, uma ferramenta de código aberto que prepara o contexto coletando código circundante, cadeias de chamadas e módulos relacionados antes de alimentar o modelo.

Níveis de Dificuldade dos Bugs

Os bugs foram categorizados por dificuldade:

  • L1: Visíveis apenas pelo diff (todos os modelos os detectaram, portanto excluídos da pontuação)
  • L2 (10 casos): Requer compreensão do código circundante (mudanças de interface, condições de corrida)
  • L3 (5 casos): Requer compreensão em nível de sistema (inconsistências entre módulos, compatibilidade de atualização)

Resultados por Modelo

Dois modos de avaliação foram usados:

  • Bruto: O modelo vê apenas o diff e o conteúdo do PR
  • R1: O Magpie fornece contexto circundante

Taxas gerais de detecção (apenas L2 + L3):

  • Claude: 53% bruto, 47% com contexto
  • Gemini: 13% bruto, 33% com contexto
  • Codex: 33% bruto, 27% com contexto
  • MiniMax: 27% bruto, 33% com contexto
  • Qwen: 33% bruto, 40% com contexto
Ad

Principais Descobertas

O Claude dominou a revisão bruta com 53% de detecção e perfeitos 5/5 em bugs L3. Ele se destaca em organizar seu próprio contexto, então contexto adicional realmente reduziu seu desempenho.

O Gemini teve desempenho fraco no modo bruto (13%), mas melhorou significativamente com contexto (33%), sugerindo que precisa de contexto fornecido antecipadamente.

O Qwen foi o melhor desempenho assistido por contexto com 40%, com a maior detecção de bugs L2 (5/10).

Resultados do Debate Adversário

Quando os modelos debateram entre si por cinco rodadas, a detecção de bugs saltou de 53% (melhor modelo individual) para 80%. Os bugs L3 mais difíceis atingiram 100% de detecção no modo de debate.

O experimento revela que diferentes modelos têm pontos fortes complementares: a meticulosidade do Claude, a análise focada em design do Gemini quando recebe contexto, o feedback concreto e acionável do Codex e o forte desempenho assistido por contexto do Qwen.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

DebugBase: Uma Base de Conhecimento Coletiva de Erros para Agentes de Codificação de IA via MCP
Tools

DebugBase: Uma Base de Conhecimento Coletiva de Erros para Agentes de Codificação de IA via MCP

DebugBase é uma ferramenta compatível com MCP que fornece uma base de conhecimento compartilhada onde agentes de IA de programação podem verificar correções conhecidas para erros comuns, como incompatibilidades de hidratação do Next.js ou problemas de resolução do TypeScript. Inclui 11 ferramentas MCP e vem pré-carregada com 58 pares de erro/correção de sessões reais de agentes.

OpenClawRadar
Framework de multiagente de código aberto extraído do vazamento do código do Claude
Tools

Framework de multiagente de código aberto extraído do vazamento do código do Claude

Um desenvolvedor extraiu o sistema de orquestração multiagente do código-fonte vazado do Claude Code e o reconstruiu como um framework de código aberto independente de modelo com licença MIT. O framework TypeScript de 8.000 linhas inclui agendamento de tarefas, mensagens entre agentes e ferramentas integradas.

OpenClawRadar
Orchino: Sistema de Orquestração Multiagente Local para Windows com Automação Paralela de Navegador e Interface do Usuário
Tools

Orchino: Sistema de Orquestração Multiagente Local para Windows com Automação Paralela de Navegador e Interface do Usuário

Orchino é um sistema local de orquestração multiagente para Windows que executa tarefas paralelas no navegador e no sistema operacional sem sequestrar a interface do usuário. Uma demonstração mostra 4 agentes completando 'Pesquisar fones de ouvido Sony no Flipkart e Amazon, enviar os resultados por e-mail, salvar no Bloco de Notas' em 29,5 segundos usando execução verdadeiramente paralela.

OpenClawRadar
Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST
Tools

Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST

Beagle é um sistema experimental de gerenciamento de código-fonte que armazena árvores sintáticas abstratas em vez de blobs binários, usando um formato de dados chamado BASON, semelhante a CRDT, e armazenamento de apoio com bancos de dados chave-valor como RocksDB.

OpenClawRadar