50,000 PRs Analizados: IA Revela Patrones de Complejidad en Código

Cómo funciona GitVelocity

GitVelocity se conecta a tus repositorios de GitHub, GitLab o Bitbucket y utiliza Claude (por defecto Sonnet 4.6, que funciona casi tan bien como Opus 4.6 a menor costo) para analizar cada solicitud de extracción fusionada. Cada PR recibe una puntuación de 0 a 100 en seis dimensiones:

Alcance (0-20)
Arquitectura (0-20)
Implementación (0-20)
Riesgo (0-20)
Calidad (0-15)
Rendimiento/Seguridad (0-5)

Las seis puntuaciones dimensionales se suman y luego se escalan según el tamaño del cambio usando un multiplicador: una corrección de 10 líneas obtiene una puntuación más baja que una refactorización de 500 líneas incluso con la misma complejidad. La fórmula completa está disponible en gitvelocity.dev/scoring-guide.

Hallazgos clave de más de 50,000 PRs

El análisis de más de 50,000 PRs en múltiples lenguajes reveló varios patrones contraintuitivos:

Las PRs grandes no obtienen automáticamente puntuaciones altas: Una migración de 800 líneas con baja complejidad obtiene peor puntuación que un cambio arquitectónico de 200 líneas. El tamaño te da el multiplicador completo, pero la puntuación base aún tiene que ganárselo.
No puedes obtener una buena puntuación sin pruebas: La dimensión de calidad (0-15) no te dará puntos sin cobertura de pruebas. Con niveles de experiencia similares, este fue el separador más claro entre ingenieros.
Los juniors comenzaron a superar a algunos seniors: Adoptaron herramientas de IA más rápido y asumieron problemas más difíciles. Una vez que pudieron ver sus propias puntuaciones, apuntaron más alto.
El código generado por IA se califica igual que el código escrito por humanos: El código es código. Un ingeniero que usa IA para enviar trabajos más complejos más rápido es más productivo, y sus puntuaciones reflejan eso.

Detalles de implementación técnica

La consistencia en la puntuación fue el problema técnico más difícil. Sin ejemplos de referencia que anclaran cada dimensión, las puntuaciones de Claude variaban más de 15 puntos entre ejecuciones. El equipo resolvió esto creando 18 anclajes calibrados (tres por dimensión en niveles bajo/medio/alto), lo que redujo la varianza a 2-4 puntos en la misma PR.

La herramienta utiliza un modelo BYOK (trae tu propia clave API de Anthropic) y cuesta centavos por PR. No se almacena código fuente: los diffs se analizan y descartan inmediatamente.

Impacto conductual y características de equipo

El equipo observó lo que llaman "el efecto Fitbit": la herramienta no te hace enviar mejor código, pero ver la puntuación sí. Los ingenieros comenzaron a referenciar sus propias puntuaciones en reuniones 1:1 sin que se les pidiera, porque los números coincidían con lo que ya sentían sobre su trabajo.

Cada puntuación es completamente visible para el ingeniero que escribió la PR, con desgloses por dimensión y razonamiento. No hay un panel oculto que la gerencia vea y los ingenieros no.

GitVelocity agregó recientemente puntos de referencia de equipo (gitvelocity.dev/demo/benchmarks). Una vez que estás calificando PRs, puedes ver cómo se compara tu equipo con otros en el conjunto de datos: aproximadamente 1,000 ingenieros en 60 equipos hasta ahora. Los equipos que eran escépticos sobre las puntuaciones individuales se volvieron genuinamente curiosos una vez que pudieron medirse contra el campo.

📖 Read the full source: HN AI Agents

GitVelocity: La Puntuación de IA de 50k PRs Revela Perspectivas sobre la Complejidad del Código

Cómo funciona GitVelocity

Hallazgos clave de más de 50,000 PRs

Detalles de implementación técnica

Impacto conductual y características de equipo

👀 Ver también

BuddyBoard: Un Tablero de Líderes Competitivo para la Función /buddy de Claude Code

Book-Librarian: Rastrea tu lectura, obtén recomendaciones sin spoilers

Agente OpenClaw Adquiere Capacidad de Llamadas Telefónicas Mediante Habilidad Personalizada

Context Gateway: Un Proxy de Código Abierto para Comprimir el Contexto de Agentes de IA