KI-Code-Review-Benchmark 2024: Claude vs Gemini vs Codex vs Qwen vs MiniMax

Vergleich der KI-Code-Review-Leistung

Ein kürzliches Experiment verglich fünf führende KI-Modelle für Code-Reviews anhand von 15 Pull-Requests von Milvus, einer Open-Source-Vektordatenbank. Jeder PR enthielt bekannte Fehler, die nach dem Mergen in der Produktion auftraten, und bot so einen realistischen Testdatensatz.

Modelle und Aufbau

Die getesteten Modelle waren:

Claude Opus 4.6
Gemini 3 Pro
GPT-5.2-Codex
Qwen-3.5-Plus
MiniMax-M2.5

Der Benchmark nutzte Magpie, ein Open-Source-Tool, das den Kontext vorbereitet, indem es umgebenden Code, Aufrufketten und verwandte Module einbezieht, bevor es ihn an das Modell weitergibt.

Schwierigkeitsgrade der Fehler

Fehler wurden nach Schwierigkeit kategorisiert:

L1: Sichtbar allein aus dem Diff (alle Modelle erkannten diese, daher aus der Wertung ausgeschlossen)
L2 (10 Fälle): Erfordert Verständnis des umgebenden Codes (Schnittstellenänderungen, Nebenläufigkeitsprobleme)
L3 (5 Fälle): Erfordert systemweites Verständnis (modulübergreifende Inkonsistenzen, Upgrade-Kompatibilität)

Ergebnisse nach Modell

Zwei Auswertungsmodi wurden verwendet:

Roh: Modell sieht nur PR-Diff und Inhalt
R1: Magpie liefert umgebenden Kontext

Gesamterkennungsraten (nur L2 + L3):

Claude: 53 % roh, 47 % mit Kontext
Gemini: 13 % roh, 33 % mit Kontext
Codex: 33 % roh, 27 % mit Kontext
MiniMax: 27 % roh, 33 % mit Kontext
Qwen: 33 % roh, 40 % mit Kontext

Wesentliche Erkenntnisse

Claude dominierte den Roh-Review mit 53 % Erkennung und perfekten 5/5 bei L3-Fehlern. Es ist hervorragend darin, seinen eigenen Kontext zu organisieren, sodass zusätzlicher Kontext seine Leistung tatsächlich verringerte.

Gemini schnitt im Rohmodus schlecht ab (13 %), verbesserte sich aber mit Kontext deutlich (33 %), was darauf hindeutet, dass es Kontext von vornherein benötigt.

Qwen war mit 40 % der stärkste kontextunterstützte Performer mit der höchsten L2-Fehlererkennung (5/10).

Ergebnisse der gegnerischen Debatte

Wenn Modelle fünf Runden lang miteinander debattierten, stieg die Fehlererkennung von 53 % (bestes Einzelmodell) auf 80 %. Die schwierigsten L3-Fehler erreichten im Debattenmodus 100 % Erkennung.

Das Experiment zeigt, dass verschiedene Modelle komplementäre Stärken haben: Claudes Gründlichkeit, Geminis designfokussierte Analyse bei gegebenem Kontext, Codex' konkrete, umsetzbare Rückmeldungen und Qwens starke kontextunterstützte Leistung.

📖 Read the full source: HN AI Agents