GitVelocity: KI-Auswertung von 50.000 PRs liefert Erkenntnisse zur Code-Komplexität

Wie GitVelocity funktioniert
GitVelocity verbindet sich mit Ihren GitHub-, GitLab- oder Bitbucket-Repositories und nutzt Claude (standardmäßig Sonnet 4.6, das fast so gut wie Opus 4.6 abschneidet, aber kostengünstiger ist), um jeden gemergten Pull Request zu analysieren. Jeder PR erhält eine Punktzahl von 0-100 in sechs Dimensionen:
- Umfang (0-20)
- Architektur (0-20)
- Implementierung (0-20)
- Risiko (0-20)
- Qualität (0-15)
- Leistung/Sicherheit (0-5)
Die sechs Dimensionswerte werden addiert und dann mithilfe eines Multiplikators an die Änderungsgröße angepasst – eine 10-Zeilen-Korrektur erhält selbst bei gleicher Komplexität eine niedrigere Bewertung als eine 500-Zeilen-Refaktorisierung. Die vollständige Formel ist unter gitvelocity.dev/scoring-guide verfügbar.
Wichtige Erkenntnisse aus über 50.000 PRs
Die Analyse von mehr als 50.000 PRs in mehreren Programmiersprachen ergab mehrere kontraintuitive Muster:
- Große PRs erhalten nicht automatisch hohe Punktzahlen: Eine 800-Zeilen-Migration mit geringer Komplexität schneidet schlechter ab als eine 200-Zeilen-Architekturänderung. Die Größe bringt den vollen Multiplikator, aber die Grundpunktzahl muss dennoch verdient werden.
- Ohne Tests kann man nicht gut abschneiden: Die Qualitätsdimension (0-15) vergibt ohne Testabdeckung keine Punkte. Bei ähnlicher Erfahrungsstufe war dies der deutlichste Unterschied zwischen Entwicklern.
- Junioren übertrafen einige Senioren: Sie übernahmen KI-Tools schneller und nahmen sich schwierigere Probleme vor. Sobald sie ihre eigenen Punktzahlen sehen konnten, strebten sie nach höheren Werten.
- KI-generierter Code wird wie menschlich geschriebener Code bewertet: Code ist Code. Ein Entwickler, der KI nutzt, um komplexere Arbeit schneller abzuliefern, ist produktiver, und seine Punktzahlen spiegeln das wider.
Technische Implementierungsdetails
Die Bewertungskonsistenz war das schwierigste technische Problem. Ohne Referenzbeispiele, die jede Dimension verankern, wichen Claudes Bewertungen zwischen den Durchläufen um mehr als 15 Punkte ab. Das Team löste dies, indem es 18 kalibrierte Ankerpunkte erstellte (drei pro Dimension auf niedrigem/mittlerem/hohem Niveau), wodurch die Abweichung bei demselben PR auf 2-4 Punkte reduziert wurde.
Das Tool verwendet ein BYOK-Modell (bring your own Anthropic API key) und kostet nur Cent pro PR. Kein Quellcode wird gespeichert – Diffs werden analysiert und sofort verworfen.
Verhaltensauswirkungen und Teamfunktionen
Das Team beobachtete den sogenannten „Fitbit-Effekt“ – das Tool selbst verbessert nicht Ihren Code, aber das Sehen der Punktzahl tut es. Entwickler begannen unaufgefordert, in 1:1-Gesprächen auf ihre eigenen Punktzahlen zu verweisen, weil die Zahlen mit dem übereinstimmten, was sie ohnehin über ihre Arbeit empfanden.
Jede Punktzahl ist für den Entwickler, der den PR geschrieben hat, vollständig sichtbar, mit Aufschlüsselungen und Begründungen pro Dimension. Es gibt kein verstecktes Dashboard, das nur das Management sieht.
GitVelocity hat kürzlich Team-Benchmarks hinzugefügt (gitvelocity.dev/demo/benchmarks). Sobald Sie PRs bewerten, können Sie sehen, wie Ihr Team im Vergleich zu anderen im Datensatz abschneidet – bisher etwa 1.000 Entwickler in 60 Teams. Teams, die individuelle Punktzahlen skeptisch betrachteten, wurden wirklich neugierig, sobald sie sich mit anderen messen konnten.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Relational Memory für LLMs: Drei-Schichten-System modelliert Benutzerbeziehungen
Ein Open-Source-Python-Tool, das relationales Gedächtnis zu LLMs hinzufügt, indem es Benutzer-KI-Beziehungen über sieben psychologische Dimensionen modelliert, anstatt flache Fakten zu speichern, und dabei eine dreischichtige Erzählstruktur verwendet.

KI-Agenten-Sitzungszentrum: 3D-Dashboard zur Überwachung von Claude-Code-Sitzungen
AI Agent Session Center ist ein Echtzeit-Dashboard, das Claude Code-Sitzungen als 3D-Roboter in einer Cyberdrome visualisiert, mit Animationen, die den Agentenstatus anzeigen, und Funktionen wie Live-Terminal-Ansichten, Genehmigungsbenachrichtigungen und Sitzungsfortsetzung. Die Installation erfolgt über npx mit leichtgewichtigen Bash-Hooks.

Einführung von cltree: Ein Dateibaum-TUI für Claude-Code
<strong>cltree</strong> ist eine Split-Pane Terminalbenutzeroberfläche (TUI), die entwickelt wurde, um neben Claude Code zu laufen. Sie löst die Herausforderung, Projektstrukturen in Echtzeit anzuzeigen, während Claude Code im Terminal verwendet wird.

Project Headroom: Open-Source-Tool eines Netflix-Ingenieurs senkt KI-Token-Kosten um 90%
Netflix-Senioringenieur Tejas Chopra hat Project Headroom entwickelt, einen Open-Source-Proxy, der KI-Kontext-Eingaben um bis zu 90 % komprimiert und seit Januar 2026 schätzungsweise 700.000 US-Dollar bei den Nutzern eingespart hat. Er läuft lokal auf Port 8787 und umschließt jedes LLM-CLI.