GPT-5.5 Codex vs Claude Opus 4.7: Benchmarks de agentes de codificação no mundo real

Um usuário do Reddit testou o GPT-5.5 Codex (via Cursor) contra o Claude Opus 4.7 (Claude Code) em duas tarefas de nível de produção. Ambos usaram os mesmos prompts, MCPs (GitHub + Slack) e máquina. Os resultados destacam as diferenças de custo, arquitetura e confiabilidade.
Teste 1: Bot de triagem de PRs
- MCP do GitHub, fórmula de pontuação, alertas no Slack, tentativas e TypeScript estrito (sem
any). - Claude Code: Verificou se o MCP estava acessível antes de escrever código. Criou 36 arquivos em 12 minutos. Escreveu seu próprio teste de smoke com WebSocket (broadcast de 3ms). Zero erros na primeira execução. Custo total: ~$2,50.
- Codex: Falhou — MCP do GitHub inacessível devido a um problema de ambiente do Cursor (não erro do modelo). Não conseguiu completar a tarefa.
Teste 2: Interface de revisão de código em tempo real
- React, WebSockets, rollback otimista, diff virtualizado, reconexão WS.
- Claude Code: Mesma entrega limpa, 36 arquivos, sem erros.
- Codex: Entregou em 28 arquivos (arquitetura mais compacta). Exigiu um patch manual para um loop infinito no React. Custo total: ~$2,04 (18% mais barato que o Claude).
Conclusões: Para trabalhos complexos e pesados em arquitetura, o Opus 4.7 ainda lidera — melhor manipulação de ferramentas, saída sem necessidade de reescrita e validação completa de MCP. O Codex é mais enxuto e barato, adequado para tarefas contidas e bem definidas, onde a entrega rápida é importante e você pode tolerar pequenas correções. O usuário ainda não está migrando, mas agora observa a diferença de preço.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Rivet Actors adiciona armazenamento SQLite: um banco de dados por agente, locatário ou documento
Os Rivet Actors agora suportam armazenamento SQLite, onde cada ator recebe seu próprio banco de dados SQLite, permitindo milhões de bancos de dados independentes para agentes de IA, SaaS multi-inquilino, documentos colaborativos ou isolamento por usuário.

Agente de IA Cria Vídeo Autonomamente Usando Remotion Sem Ferramentas Predefinidas
Um desenvolvedor testou um agente de IA que criou autonomamente um vídeo curto instalando o Remotion, escrevendo código de composição, depurando problemas e entregando um arquivo renderizado sem intervenção humana.

Bot do Telegram para Controle CLI do Código Claude via Celular
Um desenvolvedor criou um bot do Telegram que faz ponte com o CLI do Claude Code, permitindo controle via comandos móveis como /commit, /code_review e /simplify. O bot descobre automaticamente habilidades personalizadas, processa fotos/documentos/notas de voz e suporta sessões de chat em grupo.

Steelman R5: Modelo de 14B Ajustado Supera o Claude Opus na Geração de Código Ada
Um desenvolvedor ajustou o Qwen2.5-Coder-14B-Instruct usando QLoRA em um conjunto de dados verificado por compilador com 3.430 pares de instruções Ada/SPARK, alcançando uma taxa de compilação de 68,6% em um benchmark personalizado, contra 42,1% do Claude Opus 4.6. O modelo está disponível via Ollama e cabe em 12GB de VRAM.