GitVelocity: 5万件のPRをAIスコアリングで分析、コード複雑性に関する知見を明らかに

GitVelocityの仕組み
GitVelocityはGitHub、GitLab、Bitbucketのリポジトリに接続し、Claude(デフォルトはSonnet 4.6で、Opus 4.6とほぼ同等の性能を低コストで実現)を使用してマージされたすべてのプルリクエストを分析します。各PRは6つの次元で0〜100点のスコアを受け取ります:
- 範囲(0-20)
- アーキテクチャ(0-20)
- 実装(0-20)
- リスク(0-20)
- 品質(0-15)
- パフォーマンス/セキュリティ(0-5)
6つの次元のスコアを合計し、変更サイズに応じた乗数でスケーリングします。同じ複雑さでも、10行の修正は500行のリファクタリングよりも低いスコアになります。完全な計算式はgitvelocity.dev/scoring-guideで公開されています。
50,000以上のPRからの主要な発見
複数の言語にわたる50,000以上のPRの分析から、いくつかの直感に反するパターンが明らかになりました:
- 大きなPRが自動的に高スコアになるわけではない: 複雑度の低い800行のマイグレーションは、200行のアーキテクチャ変更よりも低いスコアになります。サイズは完全な乗数を得られますが、基本スコア自体がそれを獲得する必要があります。
- テストなしでは高スコアを取れない: 品質次元(0-15)は、テストカバレッジがないとポイントを与えません。経験レベルが同程度の場合、これがエンジニア間で最も明確な差別化要因でした。
- ジュニアエンジニアが一部のシニアを上回り始めた: 彼らはAIツールをより早く採用し、より難しい問題に取り組みました。自分のスコアを見られるようになると、より高い目標を目指すようになりました。
- AI生成コードは人間が書いたコードと同じように採点される: コードはコードです。AIを使用してより複雑な作業を迅速に完了するエンジニアはより生産的であり、そのスコアはそれを反映しています。
技術的な実装の詳細
採点の一貫性が最も難しい技術的問題でした。各次元を固定する参照例がないと、Claudeのスコアは実行間で15点以上変動しました。チームは18個の校正済みアンカー(各次元につき低/中/高の3つ)を作成することでこの問題を解決し、同じPRでの変動を2〜4点に抑えました。
このツールはBYOK(独自のAnthropic APIキーを持参)モデルを使用し、PRあたり数セントのコストです。ソースコードは保存されず、差分は分析後すぐに破棄されます。
行動への影響とチーム機能
チームは「Fitbit効果」と呼ぶ現象を観察しました。ツール自体がより良いコードを書かせるわけではありませんが、スコアを見ることが影響します。エンジニアは自発的に1on1で自分のスコアを参照し始めました。なぜなら、その数字が彼らが自分の仕事についてすでに感じていたことと一致したからです。
すべてのスコアは、PRを作成したエンジニアに完全に可視化され、次元ごとの内訳と理由が示されます。マネージャーだけが見てエンジニアには見えない隠れたダッシュボードはありません。
GitVelocityは最近チームベンチマーク(gitvelocity.dev/demo/benchmarks)を追加しました。PRの採点を開始すると、自分のチームがデータセット内の他のチームと比較してどのように位置するかを見ることができます。現在は約60チーム、1,000人のエンジニアが参加しています。個人のスコアに懐疑的だったチームも、自分たちを他と比較して測定できるようになると、純粋に興味を持つようになりました。
📖 Read the full source: HN AI Agents
👀 See Also

OpenClaw .NET:既存プラグイン向けJSON-RPCブリッジを備えたNativeAOTポート
OpenClaw .NETは、OpenClawのC#移植版であり、約23MBのNativeAOTバイナリにコンパイルされます。これにより、JITウォームアップやNodeランタイムのオーバーヘッドが排除され、組み込みのJSON-RPCブリッジを通じて既存のTypeScript/JavaScriptプラグインとの互換性を維持します。

SWE-CI:新たなベンチマークがCIを通じた長期コードメンテナンスにおけるAIエージェントをテスト
SWE-CIは、LLM駆動エージェントが継続的インテグレーションサイクルを通じてコードベースを維持する能力を評価するリポジトリレベルのベンチマークです。静的バグ修正から長期にわたる保守性へと焦点を移し、100の実世界タスクにわたって評価します。

無料のmacOSメニューバーアプリがClaudeの使用状況をリアルタイムで監視
開発者が、Claude CodeとOpusを完全に使用して、Claudeの使用状況を監視する無料のmacOSメニューバーアプリを作成しました。このアプリは、5時間と7日間のセッション使用状況バー、コンテキストウィンドウの埋まり率を表示し、制限に近づくと通知を送信します。

開発者がKotlinマルチプラットフォームプロジェクト向けに実用的なClaudeスキルを作成
ある開発者が、既存のスキルが汎用的すぎる、特定のスタックに偏りすぎている、あるいは実用的でないと感じたため、Kotlin Multiplatform(KMP)作業に特化したClaudeスキルの公開リポジトリを作成しました。このスキルは、アーキテクチャレビュー、機能実装、モジュール化、Compose Multiplatform UI、ナビゲーション、プラットフォームブリッジ、ディープリンク、適応型UI、テスト、ビルドガバナンスなどをカバーしています。