KI-Code-Review-Benchmark: Claude, Gemini, Codex, Qwen und MiniMax im Vergleich

✍️ OpenClawRadar📅 Veröffentlicht: 27. Februar 2026🔗 Source
KI-Code-Review-Benchmark: Claude, Gemini, Codex, Qwen und MiniMax im Vergleich
Ad

Vergleich der KI-Code-Review-Leistung

Ein kürzliches Experiment verglich fünf führende KI-Modelle für Code-Reviews anhand von 15 Pull-Requests von Milvus, einer Open-Source-Vektordatenbank. Jeder PR enthielt bekannte Fehler, die nach dem Mergen in der Produktion auftraten, und bot so einen realistischen Testdatensatz.

Modelle und Aufbau

Die getesteten Modelle waren:

  • Claude Opus 4.6
  • Gemini 3 Pro
  • GPT-5.2-Codex
  • Qwen-3.5-Plus
  • MiniMax-M2.5

Der Benchmark nutzte Magpie, ein Open-Source-Tool, das den Kontext vorbereitet, indem es umgebenden Code, Aufrufketten und verwandte Module einbezieht, bevor es ihn an das Modell weitergibt.

Schwierigkeitsgrade der Fehler

Fehler wurden nach Schwierigkeit kategorisiert:

  • L1: Sichtbar allein aus dem Diff (alle Modelle erkannten diese, daher aus der Wertung ausgeschlossen)
  • L2 (10 Fälle): Erfordert Verständnis des umgebenden Codes (Schnittstellenänderungen, Nebenläufigkeitsprobleme)
  • L3 (5 Fälle): Erfordert systemweites Verständnis (modulübergreifende Inkonsistenzen, Upgrade-Kompatibilität)

Ergebnisse nach Modell

Zwei Auswertungsmodi wurden verwendet:

  • Roh: Modell sieht nur PR-Diff und Inhalt
  • R1: Magpie liefert umgebenden Kontext

Gesamterkennungsraten (nur L2 + L3):

  • Claude: 53 % roh, 47 % mit Kontext
  • Gemini: 13 % roh, 33 % mit Kontext
  • Codex: 33 % roh, 27 % mit Kontext
  • MiniMax: 27 % roh, 33 % mit Kontext
  • Qwen: 33 % roh, 40 % mit Kontext
Ad

Wesentliche Erkenntnisse

Claude dominierte den Roh-Review mit 53 % Erkennung und perfekten 5/5 bei L3-Fehlern. Es ist hervorragend darin, seinen eigenen Kontext zu organisieren, sodass zusätzlicher Kontext seine Leistung tatsächlich verringerte.

Gemini schnitt im Rohmodus schlecht ab (13 %), verbesserte sich aber mit Kontext deutlich (33 %), was darauf hindeutet, dass es Kontext von vornherein benötigt.

Qwen war mit 40 % der stärkste kontextunterstützte Performer mit der höchsten L2-Fehlererkennung (5/10).

Ergebnisse der gegnerischen Debatte

Wenn Modelle fünf Runden lang miteinander debattierten, stieg die Fehlererkennung von 53 % (bestes Einzelmodell) auf 80 %. Die schwierigsten L3-Fehler erreichten im Debattenmodus 100 % Erkennung.

Das Experiment zeigt, dass verschiedene Modelle komplementäre Stärken haben: Claudes Gründlichkeit, Geminis designfokussierte Analyse bei gegebenem Kontext, Codex' konkrete, umsetzbare Rückmeldungen und Qwens starke kontextunterstützte Leistung.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

ApexClaw: Open-Source Telegram KI-Agent mit über 85 Tools für Webautomatisierung, Sprache und E-Mail
Werkzeuge

ApexClaw: Open-Source Telegram KI-Agent mit über 85 Tools für Webautomatisierung, Sprache und E-Mail

ApexClaw ist ein Open-Source-Telegram-AI-Agent, geschrieben in Go, der über 85 integrierte Tools bietet, darunter Web-Browsing mit Headless Chrome, Sprachnotizen-Verarbeitung, Gmail-Integration und Shell-Skript-Ausführung. Er ist selbst gehostet und nutzt die z.ai-Engine für die Argumentation.

OpenClawRadar
LLM-Kostenprofiler: Open-Source-Tool verfolgt API-Ausgaben, um den Einsatz lokaler Modelle zu rechtfertigen
Werkzeuge

LLM-Kostenprofiler: Open-Source-Tool verfolgt API-Ausgaben, um den Einsatz lokaler Modelle zu rechtfertigen

LLM Cost Profiler ist ein Python-Tool, das jeden API-Aufruf an OpenAI/Anthropic verfolgt und genau zeigt, wofür Sie Geld ausgeben. Es deckt Aufgaben auf, die im Verhältnis zu ihrer Komplexität überteuert sind, und liefert konkrete Dollarbeträge, um den Umstieg auf lokale Modelle zu rechtfertigen.

OpenClawRadar
APEX-Testbenchmark-Ergebnisse: Qwen 3.5-Leistung bei echten Programmieraufgaben
Werkzeuge

APEX-Testbenchmark-Ergebnisse: Qwen 3.5-Leistung bei echten Programmieraufgaben

APEX-Testing-Benchmark-Ergebnisse zeigen die Leistung der Qwen-3.5-Modelle bei 70 echten GitHub-Coding-Aufgaben, wobei die 397B-Version bei Master-Level-Aufgaben auf 1194 ELO abfällt, während GLM-4.7 quantisiert mit 1572 ELO die lokalen Modelle anführt.

OpenClawRadar
Verwenden von /probe, um KI-Halluzinationen zu erkennen, bevor Code geschrieben wird
Werkzeuge

Verwenden von /probe, um KI-Halluzinationen zu erkennen, bevor Code geschrieben wird

Ein Entwickler teilt eine Technik namens /probe, die KI-generierte Pläne dazu zwingt, nummerierte Behauptungen mit erwarteten Werten aufzustellen, und dann das reale System abfragt, um Diskrepanzen zu erkennen. Die Methode hat vier faktische Fehler in Claudes Beschreibung seines eigenen JSONL-Formats aufgedeckt, die zu Code-Fehlern geführt hätten.

OpenClawRadar