Claude Code vs Codex：6プロジェクト比較実験の結果

ある開発者が、Claude CodeとCodexを6つのプロジェクトで比較する実践的な実験を実施しました。各エージェントがどのようにビルド、テスト、自己レビュー、相手のレビュー、間違いの認め、証拠に基づいた判断の修正を行うかを観察しました。全ソースリポジトリ（プロジェクト、README、テスト、ノート含む）はGitHubで公開されています：github.com/AdrielRod/codex-vs-claude-code。

セットアップ

ラウンド：3ラウンド：Web、バックエンド、フリーチャレンジ。
プロセス：各エージェントが相手に課題を提案。各エージェントが割り当てられた課題を実装。各エージェントが自身と相手の出力をレビュー。著者も手動で結果をレビュー。
スコアリングの重点：実行時に確認されたバグは、根拠のない主張よりも重み付け。

プロジェクト

ラウンド1：Web

Claude Code：見積もりエディタcotacao-editorを構築。IndexedDB永続化、ドメインロジック、ステータス遷移、クリーンなUIを備える。
Codex：ミニExcel風スプレッドシートReactiveSheetを構築。数式、依存関係グラフの再計算、元に戻す/やり直し、コピー/ペースト時の参照シフト、仮想化、保存/読み込み、Lighthouse検証を備える。

ラウンド2：バックエンド

Claude Code：見積もりAPI api-cotacaoを構築。ビジネスルール、SQLite永続化、冪等性、アウトボックス動作を備える。
Codex：永続リーダーボードサービスFastBoardを構築。WAL、treapランキング、クラッシュリカバリ、並行性テスト、パフォーマンスメトリクスを備える。

ラウンド3：フリーチャレンジ

Claude Code：レガシーリード重複排除/デバッグチャレンジlead-dedupe-legacyに取り組む。正規化、ミューテーション除去、冪等性、並行性ロックを含む。
Codex：スクラッチから正規表現エンジンRegexLabを構築。パーサー、AST、Thompson NFA、Pikeシミュレーション、後方参照付き再帰的バックトラッキング、UI可視化、Python比較テストを備える。

スコア結果

Codex 2 x 1 Claude Code（著者のスコアリングによる）。

主な所見

Claude Codeの強み：技術説明、文書分析、自己修正に優れる。誤りを明確に認め、誤った主張を修正し、有用なレビューを生成。
Codexの強み：実証的検証においてより一貫性がある。アプリを開き、フローをクリックし、kill -9リカバリテストを実行し、同時書き込みのストレステスト、Pythonとの正規表現出力比較、Lighthouseレポートなどの実際の成果物を確認。

主な教訓

実行、破壊、測定、オラクルとの比較は、コードの読み取りと推論だけよりも優れたシグナルをもたらした。ラウンド3で最も難しい判断は、意味的バグのある野心的プロジェクトと、範囲は狭いがバグの少ないプロジェクトのどちらを評価するかだった。

著者は、他のClaude Codeユーザーが方法論をどのように変更するかに興味を持っている。

📖 全文を読む： r/ClaudeAI

Claude Code vs Codex：6プロジェクト実践実験の内訳

セットアップ

プロジェクト

ラウンド1：Web

ラウンド2：バックエンド

ラウンド3：フリーチャレンジ

スコア結果

主な所見

主な教訓

👀 See Also

SiriをTelegramボット経由でClaude Codeと統合し、パーソナルAIアシスタントとして機能させる

AIエージェントを活用して35万行のコードベースを一人で構築した実践的教訓

マルチペインClaude Codeセットアップ：役割分離と実行フックを備えた構成

事後分析：Claudeを用いたAIコーディングプロジェクトのガバナンスシステム