Referência de Revisão de Código por IA: Claude, Gemini, Codex, Qwen e MiniMax Comparados

Comparação de Desempenho em Revisão de Código por IA
Um experimento recente avaliou cinco modelos de IA de ponta para revisão de código usando 15 pull requests do Milvus, um banco de dados vetorial de código aberto. Cada PR continha bugs conhecidos que surgiram em produção após a mesclagem, fornecendo um conjunto de testes realista.
Modelos e Configuração
Os modelos testados foram:
- Claude Opus 4.6
- Gemini 3 Pro
- GPT-5.2-Codex
- Qwen-3.5-Plus
- MiniMax-M2.5
O benchmark usou o Magpie, uma ferramenta de código aberto que prepara o contexto coletando código circundante, cadeias de chamadas e módulos relacionados antes de alimentar o modelo.
Níveis de Dificuldade dos Bugs
Os bugs foram categorizados por dificuldade:
- L1: Visíveis apenas pelo diff (todos os modelos os detectaram, portanto excluídos da pontuação)
- L2 (10 casos): Requer compreensão do código circundante (mudanças de interface, condições de corrida)
- L3 (5 casos): Requer compreensão em nível de sistema (inconsistências entre módulos, compatibilidade de atualização)
Resultados por Modelo
Dois modos de avaliação foram usados:
- Bruto: O modelo vê apenas o diff e o conteúdo do PR
- R1: O Magpie fornece contexto circundante
Taxas gerais de detecção (apenas L2 + L3):
- Claude: 53% bruto, 47% com contexto
- Gemini: 13% bruto, 33% com contexto
- Codex: 33% bruto, 27% com contexto
- MiniMax: 27% bruto, 33% com contexto
- Qwen: 33% bruto, 40% com contexto
Principais Descobertas
O Claude dominou a revisão bruta com 53% de detecção e perfeitos 5/5 em bugs L3. Ele se destaca em organizar seu próprio contexto, então contexto adicional realmente reduziu seu desempenho.
O Gemini teve desempenho fraco no modo bruto (13%), mas melhorou significativamente com contexto (33%), sugerindo que precisa de contexto fornecido antecipadamente.
O Qwen foi o melhor desempenho assistido por contexto com 40%, com a maior detecção de bugs L2 (5/10).
Resultados do Debate Adversário
Quando os modelos debateram entre si por cinco rodadas, a detecção de bugs saltou de 53% (melhor modelo individual) para 80%. Os bugs L3 mais difíceis atingiram 100% de detecção no modo de debate.
O experimento revela que diferentes modelos têm pontos fortes complementares: a meticulosidade do Claude, a análise focada em design do Gemini quando recebe contexto, o feedback concreto e acionável do Codex e o forte desempenho assistido por contexto do Qwen.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

DebugBase: Uma Base de Conhecimento Coletiva de Erros para Agentes de Codificação de IA via MCP
DebugBase é uma ferramenta compatível com MCP que fornece uma base de conhecimento compartilhada onde agentes de IA de programação podem verificar correções conhecidas para erros comuns, como incompatibilidades de hidratação do Next.js ou problemas de resolução do TypeScript. Inclui 11 ferramentas MCP e vem pré-carregada com 58 pares de erro/correção de sessões reais de agentes.

Framework de multiagente de código aberto extraído do vazamento do código do Claude
Um desenvolvedor extraiu o sistema de orquestração multiagente do código-fonte vazado do Claude Code e o reconstruiu como um framework de código aberto independente de modelo com licença MIT. O framework TypeScript de 8.000 linhas inclui agendamento de tarefas, mensagens entre agentes e ferramentas integradas.

Orchino: Sistema de Orquestração Multiagente Local para Windows com Automação Paralela de Navegador e Interface do Usuário
Orchino é um sistema local de orquestração multiagente para Windows que executa tarefas paralelas no navegador e no sistema operacional sem sequestrar a interface do usuário. Uma demonstração mostra 4 agentes completando 'Pesquisar fones de ouvido Sony no Flipkart e Amazon, enviar os resultados por e-mail, salvar no Bloco de Notas' em 29,5 segundos usando execução verdadeiramente paralela.

Beagle SCM: Um Sistema de Gerenciamento de Código-Fonte que Armazena Árvores AST
Beagle é um sistema experimental de gerenciamento de código-fonte que armazena árvores sintáticas abstratas em vez de blobs binários, usando um formato de dados chamado BASON, semelhante a CRDT, e armazenamento de apoio com bancos de dados chave-valor como RocksDB.