Benchmark IA : Claude, Gemini, Codex, Qwen, MiniMax comparés

Comparaison des performances de revue de code par IA

Une expérience récente a évalué cinq modèles d'IA phares pour la revue de code en utilisant 15 demandes de tirage de Milvus, une base de données vectorielle open source. Chaque PR contenait des bogues connus apparus en production après fusion, fournissant un ensemble de tests réaliste.

Modèles et configuration

Les modèles testés étaient :

Claude Opus 4.6
Gemini 3 Pro
GPT-5.2-Codex
Qwen-3.5-Plus
MiniMax-M2.5

Le benchmark a utilisé Magpie, un outil open source qui prépare le contexte en récupérant le code environnant, les chaînes d'appel et les modules associés avant de les fournir au modèle.

Niveaux de difficulté des bogues

Les bogues ont été catégorisés par difficulté :

L1 : Visibles uniquement à partir du diff (tous les modèles les ont détectés, donc exclus du score)
L2 (10 cas) : Nécessite la compréhension du code environnant (changements d'interface, conditions de concurrence)
L3 (5 cas) : Nécessite une compréhension au niveau système (incohérences entre modules, compatibilité des mises à jour)

Résultats par modèle

Deux modes d'évaluation ont été utilisés :

Brut : Le modèle ne voit que le diff et le contenu de la PR
R1 : Magpie fournit le contexte environnant

Taux de détection globaux (L2 + L3 uniquement) :

Claude : 53 % brut, 47 % avec contexte
Gemini : 13 % brut, 33 % avec contexte
Codex : 33 % brut, 27 % avec contexte
MiniMax : 27 % brut, 33 % avec contexte
Qwen : 33 % brut, 40 % avec contexte

Principales conclusions

Claude a dominé la revue brute avec 53 % de détection et un score parfait de 5/5 sur les bogues L3. Il excelle à organiser son propre contexte, donc un contexte supplémentaire a en réalité réduit ses performances.

Gemini a obtenu de mauvais résultats en mode brut (13 %) mais s'est significativement amélioré avec le contexte (33 %), suggérant qu'il a besoin d'un contexte fourni d'emblée.

Qwen a été le meilleur performant assisté par contexte à 40 %, avec la plus haute détection de bogues L2 (5/10).

Résultats du débat contradictoire

Lorsque les modèles ont débattu les uns contre les autres pendant cinq tours, la détection des bogues est passée de 53 % (meilleur modèle individuel) à 80 %. Les bogues L3 les plus difficiles ont atteint 100 % de détection en mode débat.

L'expérience révèle que différents modèles ont des forces complémentaires : la rigueur de Claude, l'analyse orientée conception de Gemini lorsqu'on lui donne du contexte, les retours concrets et exploitables de Codex, et les solides performances assistées par contexte de Qwen.

📖 Lire la source complète : HN AI Agents