GitVelocity : L'IA évalue 50 000 PR et révèle des informations sur la complexité du code

✍️ OpenClawRadar📅 Publié: March 31, 2026🔗 Source
GitVelocity : L'IA évalue 50 000 PR et révèle des informations sur la complexité du code
Ad

Comment fonctionne GitVelocity

GitVelocity se connecte à vos dépôts GitHub, GitLab ou Bitbucket et utilise Claude (par défaut Sonnet 4.6, qui offre des performances quasi équivalentes à Opus 4.6 à moindre coût) pour analyser chaque pull request fusionnée. Chaque PR reçoit une note de 0 à 100 selon six dimensions :

  • Portée (0-20)
  • Architecture (0-20)
  • Implémentation (0-20)
  • Risque (0-20)
  • Qualité (0-15)
  • Performance/Sécurité (0-5)

Les scores des six dimensions sont additionnés, puis ajustés en fonction de la taille des modifications à l'aide d'un multiplicateur — une correction de 10 lignes obtient un score inférieur à une refactorisation de 500 lignes, même à complexité égale. La formule complète est disponible sur gitvelocity.dev/scoring-guide.

Principales conclusions tirées de plus de 50 000 PR

L'analyse de plus de 50 000 PR dans plusieurs langages a révélé plusieurs tendances contre-intuitives :

  • Les grosses PR n'obtiennent pas automatiquement un score élevé : Une migration de 800 lignes avec une faible complexité obtient un score inférieur à un changement architectural de 200 lignes. La taille vous donne le multiplicateur complet, mais le score de base doit encore le mériter.
  • Il est impossible d'obtenir un bon score sans tests : La dimension qualité (0-15) ne vous attribue pas de points sans couverture de tests. À niveaux d'expérience similaires, c'était le facteur de différenciation le plus clair entre les ingénieurs.
  • Les juniors ont commencé à surpasser certains seniors : Ils ont adopté plus rapidement les outils d'IA et se sont attaqués à des problèmes plus complexes. Une fois qu'ils ont pu voir leurs propres scores, ils ont visé plus haut.
  • Le code généré par l'IA est évalué de la même manière que le code écrit par l'homme : Le code, c'est du code. Un ingénieur qui utilise l'IA pour livrer un travail plus complexe et plus rapidement est plus productif, et ses scores reflètent cela.
Ad

Détails techniques de l'implémentation

La cohérence des scores était le problème technique le plus difficile. Sans exemples de référence ancrant chaque dimension, les scores de Claude variaient de plus de 15 points entre les exécutions. L'équipe a résolu ce problème en créant 18 ancres calibrées (trois par dimension à des niveaux bas/moyen/élevé), ce qui a réduit la variance à 2-4 points pour la même PR.

L'outil utilise un modèle BYOK (apportez votre propre clé API Anthropic) et coûte quelques centimes par PR. Aucun code source n'est stocké — les différences sont analysées et immédiatement supprimées.

Impact comportemental et fonctionnalités d'équipe

L'équipe a observé ce qu'elle appelle "l'effet Fitbit" — l'outil ne vous fait pas livrer un meilleur code, mais voir le score le fait. Les ingénieurs ont commencé à mentionner leurs propres scores lors de leurs entretiens individuels sans y être invités, car les chiffres correspondaient à ce qu'ils ressentaient déjà concernant leur travail.

Chaque score est entièrement visible par l'ingénieur qui a écrit la PR, avec des détails par dimension et des explications. Il n'y a pas de tableau de bord caché que la direction voit et pas les ingénieurs.

GitVelocity a récemment ajouté des références d'équipe (gitvelocity.dev/demo/benchmarks). Une fois que vous évaluez des PR, vous pouvez voir comment votre équipe se compare aux autres dans l'ensemble des données — environ 1 000 ingénieurs sur 60 équipes jusqu'à présent. Les équipes qui étaient sceptiques quant aux scores individuels sont devenues vraiment curieuses une fois qu'elles ont pu se mesurer au reste du domaine.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

L'Approche de Cursor pour une Recherche Rapide d'Expressions Régulières pour les Agents IA
Tools

L'Approche de Cursor pour une Recherche Rapide d'Expressions Régulières pour les Agents IA

Cursor développe une recherche d'expressions régulières indexée pour résoudre les problèmes de performance dans les monorepos de grande taille où ripgrep peut prendre plus de 15 secondes, en utilisant des index inversés avec des n-grammes basés sur des recherches de 1993 par Zobel, Moffat et Sacks-Davis.

OpenClawRadar
Agent OS Creux : Exécutez des agents de type Claude localement sur RTX 5070 avec Qwen 3.5 9B
Tools

Agent OS Creux : Exécutez des agents de type Claude localement sur RTX 5070 avec Qwen 3.5 9B

Un système d'agents auto-modifiables utilisant Qwen 3.5 9B sur du matériel local réduit les coûts de l'API Claude de 50 %. Utilise une boucle de test itératif et d'auto-amélioration pour développer des logiciels sans intervention humaine.

OpenClawRadar
ComfyUI Skill Permet aux Agents IA de Mettre en File d'Attente et de Traiter par Lots les Rendu d'Images via le Langage Naturel
Tools

ComfyUI Skill Permet aux Agents IA de Mettre en File d'Attente et de Traiter par Lots les Rendu d'Images via le Langage Naturel

Une nouvelle compétence open-source permet aux agents OpenClaw de construire des workflows ComfyUI, de soumettre des tâches et de gérer les rendus via des commandes en langage naturel comme 'Crée 50 variations de ce concept avec différentes graines' ou 'Compare ces 4 prompts côte à côte en 1024x1024'.

OpenClawRadar
Bibliothécaire MCP : Serveur IA Local pour Contexte Persistant avec Documents
Tools

Bibliothécaire MCP : Serveur IA Local pour Contexte Persistant avec Documents

Librarian MCP est un serveur open-source du protocole Model Context qui s'exécute localement et se connecte à Jan, LM Studio ou Claude Desktop, permettant aux modèles d'IA de rechercher et d'analyser des collections de documents tout en conservant le contexte complet des conversations et la confidentialité des données.

OpenClawRadar