Claude Code vs. Codex: Prueba de construcción en el mundo real – 36 archivos vs. 28, bucle infinito y diferencia de costo de $0.46

Un desarrollador realizó una comparación directa entre Claude Code y Codex (a través de Cursor) usando las mismas indicaciones y la misma configuración MCP (GitHub + Slack). Sin pistas, sin ayuda extra. Dos tareas:
- Tarea 1: Bot de clasificación de PR – leer PRs abiertos, puntuar complejidad, redactar informe, notificar en Slack para alta prioridad. Requería lógica de reintento, registro de errores, TypeScript estricto (sin
any). - Tarea 2: Interfaz de revisión de código en tiempo real – React, WebSocket, comentarios en línea, actualizaciones optimistas con reversión, visor de diferencias virtualizado, reconexión con retroceso. Sin bibliotecas de interfaz, todo desde cero.
Resultados
- Claude Code: Verificó que las herramientas MCP estuvieran activas antes de escribir código. Construyó 36 archivos en 12 minutos. Incluyó una prueba de humo WebSocket de dos clientes que no se pidió. Latencia de transmisión: 3ms. Cero
any. Pasó la verificación de tipos al primer intento. - Codex (Cursor): No pudo acceder a GitHub MCP en la Tarea 1 (la ruta de ejecución de Cursor no exponía los descriptores de herramientas). Obtuvo
tool not foundtras 3 reintentos, pero lo registró y manejó limpiamente – problema de entorno, no de calidad del modelo. La Tarea 2 produjo una interfaz funcional en ~15 min, latencia de 5ms. La primera compilación tuvo errores de TypeScript y un bucle infinito de React (useEffectllamando ahydraterepetidamente) que necesitó un parche de guarda de referencia.
Costo
Costo de API en ambas tareas: Claude ~$2.50, Codex ~$2.04. Claude fue ~23% más caro pero ofreció una arquitectura más granular y una interfaz limpia desde el primer intento.
Conclusiones Clave
El autor señala que las dos herramientas no compiten realmente para el mismo caso de uso. Claude Code se siente como trabajar con alguien que lee la documentación primero; Codex se siente como un desarrollador sénior que quiere lanzar rápido. Ninguno filtró any, ninguno alucinó un nombre de herramienta, y ambos lograron transmisión WebSocket por debajo de 10ms – una mejora clara respecto a hace seis meses.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

El servidor TOON MCP reduce los tokens de resultados de herramientas en un 30-60% en OpenClaw.
Un servidor MCP que comprime resultados estructurados de herramientas JSON en formato TOON puede reducir el uso de tokens entre un 30-60% para datos tabulares como consultas de bases de datos y respuestas de API, ayudando a retrasar la compactación de la ventana de contexto en sesiones de OpenClaw.

PicoClaw Falla en Construir Agente de IA F1, Quema $20 en Créditos de API
Un desarrollador intentó construir un bot de información de Fórmula 1 usando PicoClaw en una Raspberry Pi Zero 2W, pero la herramienta se configuró por defecto en la versión 11, generó código Python alucinado y consumió $20 en créditos de la API de DeepSeek sin producir una solución funcional.

Gemma4 26B-A4B Ofrece un Rendimiento Local Rápido con Búsqueda Web y Soporte de Imágenes
El modelo gemma-4-26B-A4B alcanza aproximadamente 145 tokens por segundo en una RTX 4090 e incluye soporte MCP para búsqueda web y de imágenes en aplicaciones de chat. Una publicación de blog detalla la configuración y el uso multiplataforma en Mac e iPhone.

Inferencia LLM soberana del Reino Unido: Relax.ai publica documentos públicos
Relax.ai publicó documentación para inferencia de LLM soberana del Reino Unido, redirigiendo a /docs/getting-started/introduction. El servicio se compartió en HN con 104 puntos.