AIスコアリングで5万件のPR分析：コード複雑性の知見をGitVelocityが公開

GitVelocityの仕組み

GitVelocityはGitHub、GitLab、Bitbucketのリポジトリに接続し、Claude（デフォルトはSonnet 4.6で、Opus 4.6とほぼ同等の性能を低コストで実現）を使用してマージされたすべてのプルリクエストを分析します。各PRは6つの次元で0〜100点のスコアを受け取ります：

範囲（0-20）
アーキテクチャ（0-20）
実装（0-20）
リスク（0-20）
品質（0-15）
パフォーマンス/セキュリティ（0-5）

6つの次元のスコアを合計し、変更サイズに応じた乗数でスケーリングします。同じ複雑さでも、10行の修正は500行のリファクタリングよりも低いスコアになります。完全な計算式はgitvelocity.dev/scoring-guideで公開されています。

50,000以上のPRからの主要な発見

複数の言語にわたる50,000以上のPRの分析から、いくつかの直感に反するパターンが明らかになりました：

大きなPRが自動的に高スコアになるわけではない： 複雑度の低い800行のマイグレーションは、200行のアーキテクチャ変更よりも低いスコアになります。サイズは完全な乗数を得られますが、基本スコア自体がそれを獲得する必要があります。
テストなしでは高スコアを取れない： 品質次元（0-15）は、テストカバレッジがないとポイントを与えません。経験レベルが同程度の場合、これがエンジニア間で最も明確な差別化要因でした。
ジュニアエンジニアが一部のシニアを上回り始めた： 彼らはAIツールをより早く採用し、より難しい問題に取り組みました。自分のスコアを見られるようになると、より高い目標を目指すようになりました。
AI生成コードは人間が書いたコードと同じように採点される： コードはコードです。AIを使用してより複雑な作業を迅速に完了するエンジニアはより生産的であり、そのスコアはそれを反映しています。

技術的な実装の詳細

採点の一貫性が最も難しい技術的問題でした。各次元を固定する参照例がないと、Claudeのスコアは実行間で15点以上変動しました。チームは18個の校正済みアンカー（各次元につき低/中/高の3つ）を作成することでこの問題を解決し、同じPRでの変動を2〜4点に抑えました。

このツールはBYOK（独自のAnthropic APIキーを持参）モデルを使用し、PRあたり数セントのコストです。ソースコードは保存されず、差分は分析後すぐに破棄されます。

行動への影響とチーム機能

チームは「Fitbit効果」と呼ぶ現象を観察しました。ツール自体がより良いコードを書かせるわけではありませんが、スコアを見ることが影響します。エンジニアは自発的に1on1で自分のスコアを参照し始めました。なぜなら、その数字が彼らが自分の仕事についてすでに感じていたことと一致したからです。

すべてのスコアは、PRを作成したエンジニアに完全に可視化され、次元ごとの内訳と理由が示されます。マネージャーだけが見てエンジニアには見えない隠れたダッシュボードはありません。

GitVelocityは最近チームベンチマーク（gitvelocity.dev/demo/benchmarks）を追加しました。PRの採点を開始すると、自分のチームがデータセット内の他のチームと比較してどのように位置するかを見ることができます。現在は約60チーム、1,000人のエンジニアが参加しています。個人のスコアに懐疑的だったチームも、自分たちを他と比較して測定できるようになると、純粋に興味を持つようになりました。

📖 Read the full source: HN AI Agents