AIコードレビューベンチマーク比較：Claude、Gemini、Codex、Qwen、MiniMax

AIコードレビュー性能比較

最近の実験では、オープンソースのベクトルデータベースであるMilvusの15件のプルリクエストを使用して、5つの主要AIモデルのコードレビュー性能をベンチマーク評価しました。各PRには、マージ後に本番環境で発覚した既知のバグが含まれており、現実的なテストセットを提供しています。

テストされたモデルは以下の通りです：

このベンチマークでは、周辺コード、呼び出しチェーン、関連モジュールを収集してコンテキストを準備するオープンソースツール「Magpie」を使用してから、モデルに情報を提供しました。

バグは難易度別に分類されました：

2つの評価モードが使用されました：

全体検出率（L2 + L3のみ）：

Claudeは生レビューで53%の検出率を達成し、L3バグでは完璧な5/5を記録して圧倒的な性能を示しました。自らコンテキストを整理する能力に優れており、追加コンテキストは実際に性能を低下させました。

Geminiは生モードでは低調な13%でしたが、コンテキスト付きでは大幅に改善され33%となり、事前にコンテキストを提供する必要性が示唆されました。

Qwenはコンテキスト支援型で最高の40%を達成し、L2バグ検出でも最高の5/10を記録しました。

モデル同士が5ラウンドの議論を行った場合、バグ検出率は53%（最優秀単体モデル）から80%に急上昇しました。最も難しいL3バグは議論モードで100%検出に達しました。

この実験は、異なるモデルが補完的な強みを持つことを明らかにしました：Claudeの徹底性、Geminiのコンテキスト提供時の設計重視分析、Codexの具体的で実践的なフィードバック、そしてQwenの強力なコンテキスト支援性能です。

📖 完全なソースを読む： HN AI Agents