Claude Code vs Codex: 6 Proyectos en Práctica

Un desarrollador realizó un experimento práctico comparando Claude Code y Codex en seis proyectos para observar cómo cada agente construye, prueba, revisa su propio trabajo, revisa el trabajo del otro, admite errores y revisa juicios cuando se enfrenta a evidencia. El repositorio fuente completo, incluidos todos los proyectos, README, pruebas y notas, está disponible en GitHub: github.com/AdrielRod/codex-vs-claude-code.

Configuración

Rondas: 3 rondas: web, backend y desafío libre.
Proceso: Cada agente propuso desafíos para el otro. Cada agente implementó los desafíos asignados. Cada agente revisó tanto su propio resultado como el del otro agente. El autor también revisó los resultados manualmente.
Énfasis en puntuación: Los errores probados en tiempo de ejecución pesaron más que las afirmaciones sin respaldo.

Proyectos

Ronda 1: Web

Claude Code: Construyó cotacao-editor, un editor de cotizaciones con persistencia en IndexedDB, lógica de dominio, transiciones de estado y una interfaz limpia.
Codex: Construyó ReactiveSheet, una mini hoja de cálculo similar a Excel con fórmulas, recálculo de grafo de dependencias, deshacer/rehacer, desplazamiento de referencias en copiar/pegar, virtualización, guardar/cargar y validación Lighthouse.

Ronda 2: Backend

Claude Code: Construyó api-cotacao, una API de cotizaciones con reglas de negocio, persistencia SQLite, idempotencia y comportamiento de outbox.
Codex: Construyó FastBoard, un servicio de tabla de clasificación persistente con WAL, ranking treap, recuperación ante caídas, pruebas de concurrencia y métricas de rendimiento.

Ronda 3: Desafío libre

Claude Code: Trabajó en lead-dedupe-legacy, un desafío de deduplicación/depuración de leads heredados que involucra normalización, eliminación de mutaciones, idempotencia y bloqueos de concurrencia.
Codex: Construyó RegexLab, un motor de regex desde cero con analizador sintáctico, AST, NFA de Thompson, simulación Pike, retroceso recursivo con referencias inversas, visualización en interfaz de usuario y pruebas de comparación con Python.

Resultado de la puntuación

Codex 2 x 1 Claude Code (según la puntuación del autor).

Observaciones clave

Fortalezas de Claude Code: Fuerte en explicación técnica, análisis escrito y autocorrección. Admitió errores claramente, corrigió afirmaciones incorrectas y produjo reseñas útiles.
Fortalezas de Codex: Más consistente en la validación empírica: abrir aplicaciones, hacer clic en flujos, ejecutar pruebas de recuperación con kill -9, probar escrituras concurrentes bajo estrés, comparar resultados de regex con Python y verificar artefactos reales como informes Lighthouse.

Conclusión principal

Ejecutar, romper, medir y comparar con un oráculo dio mejor señal que solo leer código y razonar sobre él. La decisión más difícil en la ronda 3 fue si un proyecto más ambicioso con errores semánticos debía vencer a un proyecto más pequeño con errores más acotados.

El autor está interesado en saber qué cambiarían otros usuarios de Claude Code en la metodología.

📖 Leer la fuente completa: r/ClaudeAI

Claude Code vs Codex: Desglose de un Experimento Práctico con 6 Proyectos

Configuración

Proyectos

Ronda 1: Web

Ronda 2: Backend

Ronda 3: Desafío libre

Resultado de la puntuación

Observaciones clave

Conclusión principal

👀 Ver también

Estudio de caso: Uso de múltiples agentes de IA para construir una biblioteca de C++ en producción

Configuración de Referencia de OpenClaw: Caso de Uso de Producción de 6 Semanas con Arquitectura de Seguridad

Construyendo un Agente de Flujo de Caja Confiable con OpenClaw y Notion: Lecciones sobre Análisis de SMS y Etiquetado de Transacciones

Desarrollador solitario lanza aplicación infantil con Claude Code y gana $23 el primer día