AIコードレビューベンチマーク:Claude、Gemini、Codex、Qwen、MiniMaxの比較

AIコードレビュー性能比較
最近の実験では、オープンソースのベクトルデータベースであるMilvusの15件のプルリクエストを使用して、5つの主要AIモデルのコードレビュー性能をベンチマーク評価しました。各PRには、マージ後に本番環境で発覚した既知のバグが含まれており、現実的なテストセットを提供しています。
モデルと設定
テストされたモデルは以下の通りです:
- Claude Opus 4.6
- Gemini 3 Pro
- GPT-5.2-Codex
- Qwen-3.5-Plus
- MiniMax-M2.5
このベンチマークでは、周辺コード、呼び出しチェーン、関連モジュールを収集してコンテキストを準備するオープンソースツール「Magpie」を使用してから、モデルに情報を提供しました。
バグの難易度レベル
バグは難易度別に分類されました:
- L1:差分のみで可視(全モデルが検出したため、スコアから除外)
- L2(10ケース):周辺コードの理解が必要(インターフェース変更、並行性競合)
- L3(5ケース):システムレベルの理解が必要(モジュール間の不整合、アップグレード互換性)
モデル別結果
2つの評価モードが使用されました:
- 生:モデルはPR差分と内容のみを確認
- R1:Magpieが周辺コンテキストを提供
全体検出率(L2 + L3のみ):
- Claude:生53%、コンテキスト付き47%
- Gemini:生13%、コンテキスト付き33%
- Codex:生33%、コンテキスト付き27%
- MiniMax:生27%、コンテキスト付き33%
- Qwen:生33%、コンテキスト付き40%
主な発見
Claudeは生レビューで53%の検出率を達成し、L3バグでは完璧な5/5を記録して圧倒的な性能を示しました。自らコンテキストを整理する能力に優れており、追加コンテキストは実際に性能を低下させました。
Geminiは生モードでは低調な13%でしたが、コンテキスト付きでは大幅に改善され33%となり、事前にコンテキストを提供する必要性が示唆されました。
Qwenはコンテキスト支援型で最高の40%を達成し、L2バグ検出でも最高の5/10を記録しました。
敵対的議論の結果
モデル同士が5ラウンドの議論を行った場合、バグ検出率は53%(最優秀単体モデル)から80%に急上昇しました。最も難しいL3バグは議論モードで100%検出に達しました。
この実験は、異なるモデルが補完的な強みを持つことを明らかにしました:Claudeの徹底性、Geminiのコンテキスト提供時の設計重視分析、Codexの具体的で実践的なフィードバック、そしてQwenの強力なコンテキスト支援性能です。
📖 完全なソースを読む: HN AI Agents
👀 See Also

Claude Octopus v8.48:開発ワークフローのためのマルチAIオーケストレーションプラグイン
Claude Octopus v8.48は、開発フェーズ全体でClaude、Codex、GeminiのAIモデルを異なる役割で並列に調整するオープンソースプラグインです。フェーズ間で75%の合意ゲートを設け、複雑なタスクには新たなコンテキストウィンドウを提供し、/octo:embraceなどの特定のコマンドでフルライフサイクル開発を実現します。

Org Studio: マルチエージェントAIチームを管理するためのオープンソースダッシュボード
Org Studioは、組織設計の原則を適用してAIエージェントのチームを調整するオープンソースのダッシュボードで、OpenClawとHermes Agentの両方のランタイムをネイティブでサポートしています。チームトポロジー管理、イベント駆動型タスクボード、タスクコメントでエージェント同士が互いにメンションできるクロスランタイム通信などの機能を備えています。

Sandra: Claude用オープンソース永続グラフメモリMCP
Sandraはグラフ+ベクターのメモリバックエンドで、ネイティブMCPサーバーを備え、Claudeにセッションを超えた永続的な構造化メモリを提供します。完全一致検索、あいまい検索、セマンティック検索をサポートします。

ローカルTrello風プロジェクトマネージャー、OpenClawエージェント向け、マークダウンファイル使用
開発者は、OpenClawエージェントとの連携を想定したTrello風のプロジェクト管理システムを構築しました。APIにはNode.js + Expressを、UIにはReact + react-trelloを、データ層にはYAMLフロントマター付きマークダウンファイルを使用しています。システムはOpenClawマシン上で動作し、ローカルアクセスのみ可能で、エージェントはファイルシステム上のカードファイルを直接読み書きします。