Claude Code vs Codex: Resultados em 6 Projetos

Um desenvolvedor realizou um experimento prático comparando Claude Code e Codex em seis projetos para observar como cada agente constrói, testa, revisa seu próprio trabalho, revisa o trabalho do outro, admite erros e revisa julgamentos quando confrontado com evidências. O repositório completo, incluindo todos os projetos, READMEs, testes e anotações, está disponível no GitHub: github.com/AdrielRod/codex-vs-claude-code.

Configuração

Rodadas: 3 rodadas: web, backend e desafio livre.
Processo: Cada agente propôs desafios para o outro. Cada agente implementou os desafios atribuídos. Cada agente revisou tanto sua própria saída quanto a saída do outro agente. O autor também revisou os resultados manualmente.
Ênfase na pontuação: Bugs comprovados em tempo de execução tiveram mais peso do que alegações não fundamentadas.

Projetos

Rodada 1: Web

Claude Code: Construiu cotacao-editor, um editor de cotações com persistência IndexedDB, lógica de domínio, transições de status e uma interface limpa.
Codex: Construiu ReactiveSheet, uma mini planilha estilo Excel com fórmulas, recálculo de grafo de dependências, desfazer/refazer, deslocamento de referências em copiar/colar, virtualização, salvar/carregar e validação Lighthouse.

Rodada 2: Backend

Claude Code: Construiu api-cotacao, uma API de cotações com regras de negócio, persistência SQLite, idempotência e comportamento outbox.
Codex: Construiu FastBoard, um serviço de placar persistente com WAL, ordenação treap, recuperação de falhas, testes de concorrência e métricas de desempenho.

Rodada 3: Desafio livre

Claude Code: Trabalhou em lead-dedupe-legacy, um desafio de deduplicação/depuração de leads legados envolvendo normalização, remoção de mutação, idempotência e locks de concorrência.
Codex: Construiu RegexLab, um motor de regex do zero com parser, AST, Thompson NFA, simulação Pike, backtracking recursivo com retroreferências, visualização de UI e testes de comparação com Python.

Resultado da pontuação

Codex 2 x 1 Claude Code (de acordo com a pontuação do autor).

Observações principais

Pontos fortes do Claude Code: Forte em explicação técnica, análise escrita e autocorreção. Ele admitiu erros claramente, corrigiu alegações incorretas e produziu revisões úteis.
Pontos fortes do Codex: Mais consistente em validação empírica: abrir aplicativos, clicar em fluxos, executar testes de recuperação com kill -9, testar escritas concorrentes sob estresse, comparar saída de regex com Python e verificar artefatos reais, como relatórios Lighthouse.

Principal conclusão

Executar, quebrar, medir e comparar com um oráculo deu um sinal melhor do que apenas ler código e raciocinar sobre ele. A decisão de julgamento mais difícil na rodada 3 foi se um projeto mais ambicioso com bugs semânticos deveria vencer um projeto menor com bugs mais restritos.

O autor está interessado em saber quais mudanças outros usuários do Claude Code fariam na metodologia.

📖 Leia a fonte completa: r/ClaudeAI

Claude Code vs Codex: Análise Prática de 6 Projetos

Configuração

Projetos

Rodada 1: Web

Rodada 2: Backend

Rodada 3: Desafio livre

Resultado da pontuação

Observações principais

Principal conclusão

👀 See Also

Wyrmbarrow: Um Mundo Persistente de D&D para Claude via Ferramentas MCP

Agente OpenClaw Queimou US$ 20 em Tokens de API Devido à Inflação de Contexto por Web Scraping

O agente de IA OpenClaw identifica bugs de forma autônoma, cria e envia um PR no GitHub.

Como um animador 3D solo construiu um assistente persistente de desenvolvimento de negócios com IA usando os plugins Claude Cowork