GitVelocity: KI-Auswertung von 50.000 PRs liefert Erkenntnisse zur Code-Komplexität

Wie GitVelocity funktioniert

GitVelocity verbindet sich mit Ihren GitHub-, GitLab- oder Bitbucket-Repositories und nutzt Claude (standardmäßig Sonnet 4.6, das fast so gut wie Opus 4.6 abschneidet, aber kostengünstiger ist), um jeden gemergten Pull Request zu analysieren. Jeder PR erhält eine Punktzahl von 0-100 in sechs Dimensionen:

Umfang (0-20)
Architektur (0-20)
Implementierung (0-20)
Risiko (0-20)
Qualität (0-15)
Leistung/Sicherheit (0-5)

Die sechs Dimensionswerte werden addiert und dann mithilfe eines Multiplikators an die Änderungsgröße angepasst – eine 10-Zeilen-Korrektur erhält selbst bei gleicher Komplexität eine niedrigere Bewertung als eine 500-Zeilen-Refaktorisierung. Die vollständige Formel ist unter gitvelocity.dev/scoring-guide verfügbar.

Wichtige Erkenntnisse aus über 50.000 PRs

Die Analyse von mehr als 50.000 PRs in mehreren Programmiersprachen ergab mehrere kontraintuitive Muster:

Große PRs erhalten nicht automatisch hohe Punktzahlen: Eine 800-Zeilen-Migration mit geringer Komplexität schneidet schlechter ab als eine 200-Zeilen-Architekturänderung. Die Größe bringt den vollen Multiplikator, aber die Grundpunktzahl muss dennoch verdient werden.
Ohne Tests kann man nicht gut abschneiden: Die Qualitätsdimension (0-15) vergibt ohne Testabdeckung keine Punkte. Bei ähnlicher Erfahrungsstufe war dies der deutlichste Unterschied zwischen Entwicklern.
Junioren übertrafen einige Senioren: Sie übernahmen KI-Tools schneller und nahmen sich schwierigere Probleme vor. Sobald sie ihre eigenen Punktzahlen sehen konnten, strebten sie nach höheren Werten.
KI-generierter Code wird wie menschlich geschriebener Code bewertet: Code ist Code. Ein Entwickler, der KI nutzt, um komplexere Arbeit schneller abzuliefern, ist produktiver, und seine Punktzahlen spiegeln das wider.

Technische Implementierungsdetails

Die Bewertungskonsistenz war das schwierigste technische Problem. Ohne Referenzbeispiele, die jede Dimension verankern, wichen Claudes Bewertungen zwischen den Durchläufen um mehr als 15 Punkte ab. Das Team löste dies, indem es 18 kalibrierte Ankerpunkte erstellte (drei pro Dimension auf niedrigem/mittlerem/hohem Niveau), wodurch die Abweichung bei demselben PR auf 2-4 Punkte reduziert wurde.

Das Tool verwendet ein BYOK-Modell (bring your own Anthropic API key) und kostet nur Cent pro PR. Kein Quellcode wird gespeichert – Diffs werden analysiert und sofort verworfen.

Verhaltensauswirkungen und Teamfunktionen

Das Team beobachtete den sogenannten „Fitbit-Effekt“ – das Tool selbst verbessert nicht Ihren Code, aber das Sehen der Punktzahl tut es. Entwickler begannen unaufgefordert, in 1:1-Gesprächen auf ihre eigenen Punktzahlen zu verweisen, weil die Zahlen mit dem übereinstimmten, was sie ohnehin über ihre Arbeit empfanden.

Jede Punktzahl ist für den Entwickler, der den PR geschrieben hat, vollständig sichtbar, mit Aufschlüsselungen und Begründungen pro Dimension. Es gibt kein verstecktes Dashboard, das nur das Management sieht.

GitVelocity hat kürzlich Team-Benchmarks hinzugefügt (gitvelocity.dev/demo/benchmarks). Sobald Sie PRs bewerten, können Sie sehen, wie Ihr Team im Vergleich zu anderen im Datensatz abschneidet – bisher etwa 1.000 Entwickler in 60 Teams. Teams, die individuelle Punktzahlen skeptisch betrachteten, wurden wirklich neugierig, sobald sie sich mit anderen messen konnten.

📖 Read the full source: HN AI Agents

GitVelocity: KI-Auswertung von 50.000 PRs liefert Erkenntnisse zur Code-Komplexität

Wie GitVelocity funktioniert

Wichtige Erkenntnisse aus über 50.000 PRs

Technische Implementierungsdetails

Verhaltensauswirkungen und Teamfunktionen

👀 Siehe auch

GrapeRoot Pro fügt Undo-Schutz hinzu, um zu verhindern, dass Claude Code Ihr Projekt löscht

Automatisierte Claude-Code-Pipeline reduziert Token-Verbrauch von 78k auf 15k pro Feature

Kvaser: Ein Open-Source, lokaler erster KI-Orchestrator mit Sub-Agent-Routing und Wolfram-Integration

Fullerene: Open-Source-Persistenzspeicherschicht für Codierungsagenten reduziert Tokens um 64 % auf SWE-Bench