Claude Code vs Codex: 6-Projekt-Test

Ein Entwickler führte ein praktisches Experiment durch, bei dem er Claude Code und Codex in sechs Projekten verglich, um zu beobachten, wie jeder Agent eigene und fremde Arbeit erstellt, testet, reviewt, Fehler eingesteht und Urteile revidiert, wenn er mit Beweisen konfrontiert wird. Das vollständige Quell-Repository mit allen Projekten, READMEs, Tests und Notizen ist auf GitHub verfügbar: github.com/AdrielRod/codex-vs-claude-code.

Aufbau

Runden: 3 Runden: Web, Backend und freie Challenge.
Prozess: Jeder Agent schlug Herausforderungen für den anderen vor. Jeder Agent implementierte die zugewiesenen Herausforderungen. Jeder Agent überprüfte sowohl seine eigene als auch die Arbeit des anderen Agenten. Der Autor überprüfte die Ergebnisse manuell.
Schwerpunkt der Bewertung: Laufzeitbestätigte Fehler wurden stärker gewichtet als unbelegte Behauptungen.

Projekte

Runde 1: Web

Claude Code: Baute cotacao-editor, einen Angebotseditor mit IndexedDB-Persistenz, Domänenlogik, Statusübergängen und einer sauberen UI.
Codex: Baute ReactiveSheet, ein mini-Excel-ähnliches Tabellenblatt mit Formeln, Abhängigkeitsgraph-Neuberechnung, Rückgängig/Wiederholen, Kopieren/Einfügen mit Referenzverschiebung, Virtualisierung, Speichern/Laden und Lighthouse-Validierung.

Runde 2: Backend

Claude Code: Baute api-cotacao, eine Angebots-API mit Geschäftsregeln, SQLite-Persistenz, Idempotenz und Outbox-Verhalten.
Codex: Baute FastBoard, einen persistenten Bestenlisten-Dienst mit WAL, Treap-Ranking, Crash-Recovery, Parallelitätstests und Leistungsmetriken.

Runde 3: Freie Challenge

Claude Code: Arbeitete an lead-dedupe-legacy, einer Legacy-Herausforderung zur Deduplizierung/Debugging von Leads mit Normalisierung, Mutationsentfernung, Idempotenz und Parallelitätssperren.
Codex: Baute RegexLab, eine Regex-Engine von Grund auf mit Parser, AST, Thompson-NFA, Pike-Simulation, rekursivem Backtracking mit Rückreferenzen, UI-Visualisierung und Python-Vergleichstests.

Bewertungsergebnis

Codex 2 x 1 Claude Code (laut Bewertung des Autors).

Wichtige Beobachtungen

Stärken von Claude Code: Stark in technischer Erklärung, schriftlicher Analyse und Selbstkorrektur. Es räumte Fehler klar ein, korrigierte falsche Behauptungen und erstellte nützliche Reviews.
Stärken von Codex: Konsistenter bei empirischer Validierung: Apps öffnen, durch Flows klicken, kill -9 Recovery-Tests durchführen, gleichzeitige Schreibzugriffe stresstesten, Regex-Ausgabe mit Python vergleichen und tatsächliche Artefakte wie Lighthouse-Berichte prüfen.

Wichtigste Erkenntnis

Ausführen, Kaputtmachen, Messen und Vergleichen mit einer Referenz lieferte bessere Signale als nur Code zu lesen und darüber nachzudenken. Der schwierigste Bewertungsfall in Runde 3 war, ob ein ehrgeizigeres Projekt mit semantischen Fehlern ein kleineres Projekt mit engeren Fehlern schlagen sollte.

Der Autor ist daran interessiert zu hören, was andere Claude Code-Nutzer an der Methodik ändern würden.

📖 Quelle lesen: r/ClaudeAI

Claude Code vs Codex: Aufschlüsselung eines praktischen Experiments mit 6 Projekten

Aufbau

Projekte

Runde 1: Web

Runde 2: Backend

Runde 3: Freie Challenge

Bewertungsergebnis

Wichtige Beobachtungen

Wichtigste Erkenntnis

👀 Siehe auch

Hermes vs. OpenClaw: Der Unterschied ist die Persönlichkeit, nicht die Geschwindigkeit

Claude Code entwirft druckbare Visitenkarten mit HTML + Playwright

Claude Code prüft Dokumentation einer 80-Komponenten React-Bibliothek: Echte Fehler gefunden, neuer Fehler eingeführt

Homelab KI-Entwicklungsplattform: OpenCode + GitOps für sicherere Container-Updates