Claude Code vs. Codex: 36 vs. 28 Dateien, Kosten, Fehler

Jemand auf r/ClaudeAI hat einen direkten Vergleich zwischen Claude Code und Codex (via Cursor) bei zwei praktischen Aufgaben durchgeführt – gleiche Prompts, gleiches MCP-Setup (GitHub + Slack), gleicher Rechner. Keine Benchmarks, echte Builds.

Aufgaben

Aufgabe 1: PR-Triage-Bot – Offene PRs lesen, nach Komplexität bewerten (Dateien ×2, Zeilen/10, +3 für fehlende Labels, +5 für fehlende Reviewer), einen Markdown-Bericht schreiben, Slack-Benachrichtigungen für hohe Punktzahlen senden. Erforderte Wiederholungen, Fehlerprotokollierung, striktes TypeScript, kein any.
Aufgabe 2: Echtzeit-Code-Review-UI – React + TypeScript, WebSockets, Inline-Kommentarthreads, optimistische Updates mit Rollback, virtualisierter Diff-Viewer, WS-Wiederverbindung mit exponentiellem Backoff. Keine UI-Bibliotheken.

Ergebnisse mit Claude Code

Hat /mcp ausgeführt, um Tools vor dem Schreiben von Code zu überprüfen
36 Dateien in etwa 12 Minuten erstellt
Hat unaufgefordert einen Zwei-Client-WebSocket-Smoke-Test geschrieben (Broadcast: 3ms)
Null any, Typcheck beim ersten Versuch bestanden
UI funktionierte sofort

Ergebnisse mit Codex (via Cursor)

Aufgabe 1 fehlgeschlagen: GitHub MCP war über Cursors Ausführungspfad nicht erreichbar. Wurde sauber behandelt (3× wiederholt, Fehler protokolliert, kein Absturz), aber keine Auslieferung.
Aufgabe 2: Eine funktionierende UI in etwa 15 Minuten ausgeliefert, Smoke-Test bestanden bei 5ms
TypeScript-Fehler beim ersten Kompilieren und eine Endlosschleife in React (useEffect ruft hydrate wiederholt auf). Musste mit einem Ref-Guard geflickt werden.
28 Dateien, kompaktere Architektur

Kosten (geschätzt, beide Aufgaben)

Claude: ~2,50 $
Codex: ~2,04 $
Unterschied: ~18-23 %

Fazit

Kein Agent hat „gewonnen“. Claude fühlt sich an wie die Zusammenarbeit mit jemandem, der alles überprüft, bevor er die Tastatur berührt. Codex fühlt sich an wie ein Senior-Entwickler, der liefern und weitermachen will. Beide haben WebSocket-Broadcast unter 10ms erreicht – vor sechs Monaten war das nicht selbstverständlich. Kein any-Leak, keine halluzinierten Toolnamen.

📖 Vollständige Quelle lesen: r/ClaudeAI