Analyse IA de 50 000 PR : GitVelocity révèle les tendances de complexité du code

Comment fonctionne GitVelocity

GitVelocity se connecte à vos dépôts GitHub, GitLab ou Bitbucket et utilise Claude (par défaut Sonnet 4.6, qui offre des performances quasi équivalentes à Opus 4.6 à moindre coût) pour analyser chaque pull request fusionnée. Chaque PR reçoit une note de 0 à 100 selon six dimensions :

Portée (0-20)
Architecture (0-20)
Implémentation (0-20)
Risque (0-20)
Qualité (0-15)
Performance/Sécurité (0-5)

Les scores des six dimensions sont additionnés, puis ajustés en fonction de la taille des modifications à l'aide d'un multiplicateur — une correction de 10 lignes obtient un score inférieur à une refactorisation de 500 lignes, même à complexité égale. La formule complète est disponible sur gitvelocity.dev/scoring-guide.

Principales conclusions tirées de plus de 50 000 PR

L'analyse de plus de 50 000 PR dans plusieurs langages a révélé plusieurs tendances contre-intuitives :

Les grosses PR n'obtiennent pas automatiquement un score élevé : Une migration de 800 lignes avec une faible complexité obtient un score inférieur à un changement architectural de 200 lignes. La taille vous donne le multiplicateur complet, mais le score de base doit encore le mériter.
Il est impossible d'obtenir un bon score sans tests : La dimension qualité (0-15) ne vous attribue pas de points sans couverture de tests. À niveaux d'expérience similaires, c'était le facteur de différenciation le plus clair entre les ingénieurs.
Les juniors ont commencé à surpasser certains seniors : Ils ont adopté plus rapidement les outils d'IA et se sont attaqués à des problèmes plus complexes. Une fois qu'ils ont pu voir leurs propres scores, ils ont visé plus haut.
Le code généré par l'IA est évalué de la même manière que le code écrit par l'homme : Le code, c'est du code. Un ingénieur qui utilise l'IA pour livrer un travail plus complexe et plus rapidement est plus productif, et ses scores reflètent cela.

Détails techniques de l'implémentation

La cohérence des scores était le problème technique le plus difficile. Sans exemples de référence ancrant chaque dimension, les scores de Claude variaient de plus de 15 points entre les exécutions. L'équipe a résolu ce problème en créant 18 ancres calibrées (trois par dimension à des niveaux bas/moyen/élevé), ce qui a réduit la variance à 2-4 points pour la même PR.

L'outil utilise un modèle BYOK (apportez votre propre clé API Anthropic) et coûte quelques centimes par PR. Aucun code source n'est stocké — les différences sont analysées et immédiatement supprimées.

Impact comportemental et fonctionnalités d'équipe

L'équipe a observé ce qu'elle appelle "l'effet Fitbit" — l'outil ne vous fait pas livrer un meilleur code, mais voir le score le fait. Les ingénieurs ont commencé à mentionner leurs propres scores lors de leurs entretiens individuels sans y être invités, car les chiffres correspondaient à ce qu'ils ressentaient déjà concernant leur travail.

Chaque score est entièrement visible par l'ingénieur qui a écrit la PR, avec des détails par dimension et des explications. Il n'y a pas de tableau de bord caché que la direction voit et pas les ingénieurs.

GitVelocity a récemment ajouté des références d'équipe (gitvelocity.dev/demo/benchmarks). Une fois que vous évaluez des PR, vous pouvez voir comment votre équipe se compare aux autres dans l'ensemble des données — environ 1 000 ingénieurs sur 60 équipes jusqu'à présent. Les équipes qui étaient sceptiques quant aux scores individuels sont devenues vraiment curieuses une fois qu'elles ont pu se mesurer au reste du domaine.

📖 Read the full source: HN AI Agents