GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código

Como o GitVelocity Funciona
O GitVelocity se conecta aos seus repositórios do GitHub, GitLab ou Bitbucket e usa o Claude (padrão Sonnet 4.6, que tem desempenho quase tão bom quanto o Opus 4.6 com custo menor) para analisar cada pull request mesclado. Cada PR recebe uma pontuação de 0 a 100 em seis dimensões:
- Escopo (0-20)
- Arquitetura (0-20)
- Implementação (0-20)
- Risco (0-20)
- Qualidade (0-15)
- Desempenho/Segurança (0-5)
As seis pontuações dimensionais são somadas e depois ajustadas pelo tamanho da mudança usando um multiplicador — uma correção de 10 linhas pontua menos que uma refatoração de 500 linhas, mesmo com a mesma complexidade. A fórmula completa está disponível em gitvelocity.dev/scoring-guide.
Principais Descobertas de Mais de 50.000 PRs
A análise de mais de 50.000 PRs em várias linguagens revelou vários padrões contraintuitivos:
- PRs grandes não pontuam automaticamente alto: Uma migração de 800 linhas com baixa complexidade pontua pior que uma mudança arquitetural de 200 linhas. O tamanho lhe dá o multiplicador completo, mas a pontuação base ainda precisa ser conquistada.
- Você não pode pontuar bem sem testes: A dimensão qualidade (0-15) não dá pontos sem cobertura de testes. Em níveis de experiência semelhantes, este foi o separador mais claro entre engenheiros.
- Juniors começaram a superar alguns seniors: Eles adotaram ferramentas de IA mais rápido e assumiram problemas mais difíceis. Assim que puderam ver suas próprias pontuações, miraram mais alto.
- Código gerado por IA é pontuado igual ao código escrito por humanos: Código é código. Um engenheiro que usa IA para entregar trabalhos mais complexos mais rápido é mais produtivo, e suas pontuações refletem isso.
Detalhes da Implementação Técnica
A consistência da pontuação foi o problema técnico mais difícil. Sem exemplos de referência ancorando cada dimensão, as pontuações do Claude variavam mais de 15 pontos entre execuções. A equipe resolveu isso criando 18 âncoras calibradas (três por dimensão em baixo/médio/alto), o que reduziu a variação para 2-4 pontos no mesmo PR.
A ferramenta usa um modelo BYOK (bring your own Anthropic API key) e custa centavos por PR. Nenhum código-fonte é armazenado — os diffs são analisados e descartados imediatamente.
Impacto Comportamental e Recursos de Equipe
A equipe observou o que chamam de "efeito Fitbit" — a ferramenta não faz você entregar código melhor, mas ver a pontuação sim. Engenheiros começaram a referenciar suas próprias pontuações em 1:1s espontaneamente, porque os números correspondiam ao que já sentiam sobre seu trabalho.
Cada pontuação é totalmente visível para o engenheiro que escreveu o PR, com detalhamentos por dimensão e raciocínio. Não há painel oculto que a gerência vê e os engenheiros não.
O GitVelocity recentemente adicionou benchmarks de equipe (gitvelocity.dev/demo/benchmarks). Assim que você começa a pontuar PRs, pode ver como sua equipe se compara a outras no conjunto de dados — cerca de 1.000 engenheiros em 60 equipes até agora. Equipes que eram céticas sobre pontuações individuais ficaram genuinamente curiosas quando puderam se medir contra o campo.
📖 Read the full source: HN AI Agents
👀 See Also

o-cara-do-conhecimento: Transforme Sua Estante em um Tutor com Habilidades do Claude Code
Um conjunto de habilidades para Claude Code que ingere seus livros PDF/EPUB localmente e permite fazer perguntas, aprender tópico por tópico ou gerar resumos — tudo com citações em toda a sua biblioteca.

Insights do Mundo Real sobre o Uso do OpenClaw com LLMs: Desafios e Limitações
Um usuário do OpenClaw descreve problemas de integração com LLMs, citando respostas sem sentido de um bot do Discord.

Utilizador do Reddit experimenta com agentes de programação que aprendem com falhas para quebrar ciclos de repetição
Um desenvolvedor no r/LocalLLaMA descreve experimentar com agentes de programação que aprendem com falhas armazenando causas raiz simplificadas e correspondendo correções, reduzindo loops de erro repetitivos.

ClawPy: Implementação Python Minimalista de Arquivo Único do OpenClaw com Memória de Experiência
Um desenvolvedor criou o ClawPy, um script Python simplificado que implementa a mecânica de execução autônoma de tarefas do OpenClaw com um sistema de experiência persistente que aprende com erros e sucessos passados.