GitVelocity: IA Pontua 50 Mil PRs e Revela Padrões de Código

Como o GitVelocity Funciona

O GitVelocity se conecta aos seus repositórios do GitHub, GitLab ou Bitbucket e usa o Claude (padrão Sonnet 4.6, que tem desempenho quase tão bom quanto o Opus 4.6 com custo menor) para analisar cada pull request mesclado. Cada PR recebe uma pontuação de 0 a 100 em seis dimensões:

Escopo (0-20)
Arquitetura (0-20)
Implementação (0-20)
Risco (0-20)
Qualidade (0-15)
Desempenho/Segurança (0-5)

As seis pontuações dimensionais são somadas e depois ajustadas pelo tamanho da mudança usando um multiplicador — uma correção de 10 linhas pontua menos que uma refatoração de 500 linhas, mesmo com a mesma complexidade. A fórmula completa está disponível em gitvelocity.dev/scoring-guide.

Principais Descobertas de Mais de 50.000 PRs

A análise de mais de 50.000 PRs em várias linguagens revelou vários padrões contraintuitivos:

PRs grandes não pontuam automaticamente alto: Uma migração de 800 linhas com baixa complexidade pontua pior que uma mudança arquitetural de 200 linhas. O tamanho lhe dá o multiplicador completo, mas a pontuação base ainda precisa ser conquistada.
Você não pode pontuar bem sem testes: A dimensão qualidade (0-15) não dá pontos sem cobertura de testes. Em níveis de experiência semelhantes, este foi o separador mais claro entre engenheiros.
Juniors começaram a superar alguns seniors: Eles adotaram ferramentas de IA mais rápido e assumiram problemas mais difíceis. Assim que puderam ver suas próprias pontuações, miraram mais alto.
Código gerado por IA é pontuado igual ao código escrito por humanos: Código é código. Um engenheiro que usa IA para entregar trabalhos mais complexos mais rápido é mais produtivo, e suas pontuações refletem isso.

Detalhes da Implementação Técnica

A consistência da pontuação foi o problema técnico mais difícil. Sem exemplos de referência ancorando cada dimensão, as pontuações do Claude variavam mais de 15 pontos entre execuções. A equipe resolveu isso criando 18 âncoras calibradas (três por dimensão em baixo/médio/alto), o que reduziu a variação para 2-4 pontos no mesmo PR.

A ferramenta usa um modelo BYOK (bring your own Anthropic API key) e custa centavos por PR. Nenhum código-fonte é armazenado — os diffs são analisados e descartados imediatamente.

Impacto Comportamental e Recursos de Equipe

A equipe observou o que chamam de "efeito Fitbit" — a ferramenta não faz você entregar código melhor, mas ver a pontuação sim. Engenheiros começaram a referenciar suas próprias pontuações em 1:1s espontaneamente, porque os números correspondiam ao que já sentiam sobre seu trabalho.

Cada pontuação é totalmente visível para o engenheiro que escreveu o PR, com detalhamentos por dimensão e raciocínio. Não há painel oculto que a gerência vê e os engenheiros não.

O GitVelocity recentemente adicionou benchmarks de equipe (gitvelocity.dev/demo/benchmarks). Assim que você começa a pontuar PRs, pode ver como sua equipe se compara a outras no conjunto de dados — cerca de 1.000 engenheiros em 60 equipes até agora. Equipes que eram céticas sobre pontuações individuais ficaram genuinamente curiosas quando puderam se medir contra o campo.

📖 Read the full source: HN AI Agents

GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código

Como o GitVelocity Funciona

Principais Descobertas de Mais de 50.000 PRs

Detalhes da Implementação Técnica

Impacto Comportamental e Recursos de Equipe

👀 See Also

Claude Code obtém verificação de modelos TLA+ via servidor MCP tla-mcp

Título do artigo: Loop estilo Ralph para Claude Code com sessões de revisão cruzada de diferentes agentes

Framework de Código Aberto Utiliza Claude Code CLI para Monitoramento Automatizado de Repositórios GitHub

A ferramenta de automação de fluxo de trabalho Symphony funciona com o Claude Code