Benchmark d'analyse de code par IA : Comparaison de Claude, Gemini, Codex, Qwen et MiniMax

✍️ OpenClawRadar📅 Publié: February 27, 2026🔗 Source
Benchmark d'analyse de code par IA : Comparaison de Claude, Gemini, Codex, Qwen et MiniMax
Ad

Comparaison des performances de revue de code par IA

Une expérience récente a évalué cinq modèles d'IA phares pour la revue de code en utilisant 15 demandes de tirage de Milvus, une base de données vectorielle open source. Chaque PR contenait des bogues connus apparus en production après fusion, fournissant un ensemble de tests réaliste.

Modèles et configuration

Les modèles testés étaient :

  • Claude Opus 4.6
  • Gemini 3 Pro
  • GPT-5.2-Codex
  • Qwen-3.5-Plus
  • MiniMax-M2.5

Le benchmark a utilisé Magpie, un outil open source qui prépare le contexte en récupérant le code environnant, les chaînes d'appel et les modules associés avant de les fournir au modèle.

Niveaux de difficulté des bogues

Les bogues ont été catégorisés par difficulté :

  • L1 : Visibles uniquement à partir du diff (tous les modèles les ont détectés, donc exclus du score)
  • L2 (10 cas) : Nécessite la compréhension du code environnant (changements d'interface, conditions de concurrence)
  • L3 (5 cas) : Nécessite une compréhension au niveau système (incohérences entre modules, compatibilité des mises à jour)

Résultats par modèle

Deux modes d'évaluation ont été utilisés :

  • Brut : Le modèle ne voit que le diff et le contenu de la PR
  • R1 : Magpie fournit le contexte environnant

Taux de détection globaux (L2 + L3 uniquement) :

  • Claude : 53 % brut, 47 % avec contexte
  • Gemini : 13 % brut, 33 % avec contexte
  • Codex : 33 % brut, 27 % avec contexte
  • MiniMax : 27 % brut, 33 % avec contexte
  • Qwen : 33 % brut, 40 % avec contexte
Ad

Principales conclusions

Claude a dominé la revue brute avec 53 % de détection et un score parfait de 5/5 sur les bogues L3. Il excelle à organiser son propre contexte, donc un contexte supplémentaire a en réalité réduit ses performances.

Gemini a obtenu de mauvais résultats en mode brut (13 %) mais s'est significativement amélioré avec le contexte (33 %), suggérant qu'il a besoin d'un contexte fourni d'emblée.

Qwen a été le meilleur performant assisté par contexte à 40 %, avec la plus haute détection de bogues L2 (5/10).

Résultats du débat contradictoire

Lorsque les modèles ont débattu les uns contre les autres pendant cinq tours, la détection des bogues est passée de 53 % (meilleur modèle individuel) à 80 %. Les bogues L3 les plus difficiles ont atteint 100 % de détection en mode débat.

L'expérience révèle que différents modèles ont des forces complémentaires : la rigueur de Claude, l'analyse orientée conception de Gemini lorsqu'on lui donne du contexte, les retours concrets et exploitables de Codex, et les solides performances assistées par contexte de Qwen.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Protocole Agent Browser : un fork open-source de Chrome pour les agents IA atteint 90 % au benchmark Mind2Web
Tools

Protocole Agent Browser : un fork open-source de Chrome pour les agents IA atteint 90 % au benchmark Mind2Web

Agent Browser Protocol (ABP) est un fork open-source de Chrome qui gèle JavaScript et le temps après chaque action pour convertir la navigation web en chat multimodal pour les agents IA. Il a obtenu 90,53 % sur le benchmark Online Mind2Web et peut être ajouté à Claude Code avec une seule commande.

OpenClawRadar
L'extension de navigateur wearehere analyse les sites à la recherche de risques de suivi et de menaces pour la vie privée.
Tools

L'extension de navigateur wearehere analyse les sites à la recherche de risques de suivi et de menaces pour la vie privée.

wearehere est une extension de navigateur qui analyse les sites web dans dix catégories incluant les cookies, les traqueurs, l'empreinte numérique des appareils et les dark patterns, puis les note en fonction des risques pour la vie privée. Elle pèse moins de 200 Ko, s'exécute localement dans le navigateur et est également disponible sous forme de package npm pour une intégration avec les agents IA via le serveur MCP barebrowse.

OpenClawRadar
Bouclier : Plugin de Sécurité Open-Source pour Claude Code avec Analyse Unifiée
Tools

Bouclier : Plugin de Sécurité Open-Source pour Claude Code avec Analyse Unifiée

Shield est un plugin de sécurité open-source pour Claude Code qui orchestre plusieurs outils de sécurité à partir d'une seule commande /shield:shield, détecte automatiquement votre pile technologique, exécute les outils installés et génère des rapports unifiés avec des scores de risque et des suggestions de corrections de code.

OpenClawRadar
Vibeyard ajoute un tableau Kanban pour gérer plusieurs sessions Claude Code
Tools

Vibeyard ajoute un tableau Kanban pour gérer plusieurs sessions Claude Code

Un IDE open-source appelé Vibeyard inclut désormais un tableau Kanban qui permet de lancer des sessions d'agent Claude Code directement depuis les cartes. Les cartes se déplacent automatiquement vers la colonne Terminé lorsque l'agent a fini.

OpenClawRadar