CC-Canary: detecta regresiones en Claude Code con análisis local de JSONL

CC-Canary es una herramienta de detección de deriva para Claude Code, empaquetada como dos Skills de agente instalables. Escanea los registros de sesión en formato JSONL que Claude Code ya escribe en ~/.claude/projects/, detecta si el modelo ha estado derivando en tu propio trabajo y produce un informe forense compartible. Sin red, sin cuenta, sin telemetría, sin daemon en segundo plano: funciona con datos que ya están en tu disco. Estado: 0.x / pre-alfa.

Instalación

Instala mediante npx skills:

npx skills add delta-hq/cc-canary

O instala skills individuales:

npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html

Requisitos: Python 3.8+ en PATH. macOS/Linux/WSL para apertura automática del informe HTML (alternativamente, imprime la ruta).

Uso

Desde una sesión de Claude Code:

/cc-canary 60d /cc-canary-html 30d

La ventana por defecto es de 60 días; acepta 7d, 14d, 30d, 60d, 90d, 180d.

Qué obtienes

Veredicto — MANTENIENDO / SOSPECHA DE REGRESIÓN / REGRESIÓN CONFIRMADA / NO CONCLUSIVO
Tabla de métricas principales — comparación antes vs después con bandas verde/amarillo/rojo
Barras de tendencia semanal — costo (USD, verificado con ccusage), proporción lectura:edición, bucles de razonamiento, tokens/ turno
Comparación entre versiones — mismo usuario, diferentes versiones del modelo, controlando por mezcla de tareas
Fecha de inflexión detectada automáticamente — quiebre en el puntaje de salud compuesto
Hallazgos con clasificación de lado del modelo / lado del usuario / ambiguo
Apéndices — profundidad de pensamiento por hora del día, cambio en frecuencia de palabras, transición de visibilidad del pensamiento en tres períodos, tasas de comportamiento por turno

Métricas rastreadas

Proporción lectura:edición — lecturas de archivo por edición; proxy de minuciosidad de investigación
Participación de escritura en mutaciones — Escritura / (Edición + Escritura); alta participación = reescribir en lugar de ediciones quirúrgicas
Bucles de razonamiento / 1K llamadas a herramientas — frases como "déjame intentar de nuevo", "oh espera", "en realidad"
Tasa de frustración — tasa de palabras de frustración en tus indicaciones
Tasa de redacción de pensamiento — fracción de bloques de pensamiento redactados vs visibles
Longitud media del pensamiento — proxy de profundidad de razonamiento
Turnos de API por turno de usuario — llamadas a API por mensaje de usuario
Tokens por turno de usuario — volumen total de tokens por mensaje de usuario

Además de apéndices para detención prematura, errores autoadmitidos, vocabulario abreviado, interrupciones del usuario, etc.

Cómo funciona

Escaneo — Script en Python (solo stdlib) recorre ~/.claude/projects/**/*.jsonl, filtra por ventana, excluye sesiones de subagentes.
Deduplicación — Los mensajes del asistente se deduplican por (message.id, requestId) porque Claude Code escribe el mismo mensaje en múltiples JSONL cuando las sesiones se reanudan o bifurcan.
Agregación — Métricas por sesión: mezcla de herramientas, proporción lectura:edición, frases de bucle de razonamiento, errores autoadmitidos, detenciones prematuras, interrupciones, uso de tokens, costo (tarifas actuales de Claude 4.x), profundidad de pensamiento por hora del día.
Detección de inflexión — Puntaje de salud compuesto por día; argmax de |antes − después| sobre fechas candidatas con un piso de 0.75σ. Si ningún quiebre supera el umbral, se usa la mediana de la marca de tiempo.
Pre-renderizado del informe — El script escribe un esqueleto en markdown/HTML con cada tabla y gráfico de barras completado. ~20 espacios narrativos dejados para que Claude los llene.
Relleno y guardado — Claude lee el esqueleto, escribe la narrativa y guarda el archivo final. Tiempo total de ejecución: ~2.5s de script + 10–20s de narrativa de Claude.