GitVelocity: La Puntuación de IA de 50k PRs Revela Perspectivas sobre la Complejidad del Código

Cómo funciona GitVelocity
GitVelocity se conecta a tus repositorios de GitHub, GitLab o Bitbucket y utiliza Claude (por defecto Sonnet 4.6, que funciona casi tan bien como Opus 4.6 a menor costo) para analizar cada solicitud de extracción fusionada. Cada PR recibe una puntuación de 0 a 100 en seis dimensiones:
- Alcance (0-20)
- Arquitectura (0-20)
- Implementación (0-20)
- Riesgo (0-20)
- Calidad (0-15)
- Rendimiento/Seguridad (0-5)
Las seis puntuaciones dimensionales se suman y luego se escalan según el tamaño del cambio usando un multiplicador: una corrección de 10 líneas obtiene una puntuación más baja que una refactorización de 500 líneas incluso con la misma complejidad. La fórmula completa está disponible en gitvelocity.dev/scoring-guide.
Hallazgos clave de más de 50,000 PRs
El análisis de más de 50,000 PRs en múltiples lenguajes reveló varios patrones contraintuitivos:
- Las PRs grandes no obtienen automáticamente puntuaciones altas: Una migración de 800 líneas con baja complejidad obtiene peor puntuación que un cambio arquitectónico de 200 líneas. El tamaño te da el multiplicador completo, pero la puntuación base aún tiene que ganárselo.
- No puedes obtener una buena puntuación sin pruebas: La dimensión de calidad (0-15) no te dará puntos sin cobertura de pruebas. Con niveles de experiencia similares, este fue el separador más claro entre ingenieros.
- Los juniors comenzaron a superar a algunos seniors: Adoptaron herramientas de IA más rápido y asumieron problemas más difíciles. Una vez que pudieron ver sus propias puntuaciones, apuntaron más alto.
- El código generado por IA se califica igual que el código escrito por humanos: El código es código. Un ingeniero que usa IA para enviar trabajos más complejos más rápido es más productivo, y sus puntuaciones reflejan eso.
Detalles de implementación técnica
La consistencia en la puntuación fue el problema técnico más difícil. Sin ejemplos de referencia que anclaran cada dimensión, las puntuaciones de Claude variaban más de 15 puntos entre ejecuciones. El equipo resolvió esto creando 18 anclajes calibrados (tres por dimensión en niveles bajo/medio/alto), lo que redujo la varianza a 2-4 puntos en la misma PR.
La herramienta utiliza un modelo BYOK (trae tu propia clave API de Anthropic) y cuesta centavos por PR. No se almacena código fuente: los diffs se analizan y descartan inmediatamente.
Impacto conductual y características de equipo
El equipo observó lo que llaman "el efecto Fitbit": la herramienta no te hace enviar mejor código, pero ver la puntuación sí. Los ingenieros comenzaron a referenciar sus propias puntuaciones en reuniones 1:1 sin que se les pidiera, porque los números coincidían con lo que ya sentían sobre su trabajo.
Cada puntuación es completamente visible para el ingeniero que escribió la PR, con desgloses por dimensión y razonamiento. No hay un panel oculto que la gerencia vea y los ingenieros no.
GitVelocity agregó recientemente puntos de referencia de equipo (gitvelocity.dev/demo/benchmarks). Una vez que estás calificando PRs, puedes ver cómo se compara tu equipo con otros en el conjunto de datos: aproximadamente 1,000 ingenieros en 60 equipos hasta ahora. Los equipos que eran escépticos sobre las puntuaciones individuales se volvieron genuinamente curiosos una vez que pudieron medirse contra el campo.
📖 Read the full source: HN AI Agents
👀 Ver también

Recuerdo Total: Grafo de Conocimiento Local para el Historial de Conversaciones de Código de Claude
Total Recall es un sistema de código abierto que ingiere las transcripciones de conversaciones JSONL de Claude Code en una base de datos SQLite con búsqueda de texto completo e incrustaciones vectoriales, haciendo que el historial de conversaciones sea buscable entre sesiones. Recupera extractos reales de conversaciones con contexto consciente del DAG e incluye un importador de ChatGPT.

BrowserKing: Extensión de Código Abierto para Chrome para Control del Navegador mediante Claude y Otros Modelos
BrowserKing es una extensión gratuita y de código abierto para Chrome que permite a Claude y más de 15 modelos ver y controlar tu navegador desde un panel lateral. Toma capturas de pantalla, las envía al modelo y luego actúa según las decisiones para hacer clic en botones, llenar formularios, desplazarse y navegar por pestañas.

Claude Code Karma: Panel de Observabilidad Local para Sesiones de Claude Code
Claude Code Karma es un panel de control local de código abierto que analiza archivos JSONL de ~/.claude/ para visualizar datos de sesiones de Claude Code, rastrear el uso de herramientas y monitorear fallos silenciosos. Construido con FastAPI, Svelte-Kit 2, Svelte 5 y SQLite, proporciona líneas de tiempo completas de sesiones y seguimiento en vivo.

SuperHQ: Ejecuta agentes de codificación de IA en sandboxes de microVM aislados.
SuperHQ es una aplicación de código abierto en Rust/GPUI que ejecuta agentes de codificación de IA (Claude Code, OpenAI Codex, Pi) en sandboxes de microVM aislados. Cada agente obtiene una VM Debian completa, monta los directorios del proyecto en modo solo lectura y nunca ve las claves API del host, ya que se inyectan a través de un proxy de autenticación.