CC-Canary : Analyse JSONL locale pour détecter régressions Claude Code

CC-Canary est un outil de détection de dérive pour Claude Code, fourni sous forme de deux compétences d'agent installables. Il analyse les journaux de session au format JSONL que Claude Code écrit déjà dans ~/.claude/projects/, détecte si le modèle a dérivé sur votre propre travail et produit un rapport forensique partageable. Pas de réseau, pas de compte, pas de télémétrie, pas de démon en arrière-plan — il fonctionne sur les données déjà présentes sur votre disque. Statut : 0.x / pré-alpha.

Installation

Installez via npx skills :

npx skills add delta-hq/cc-canary

Ou installez les compétences individuellement :

npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html

Prérequis : Python 3.8+ sur le PATH. macOS/Linux/WSL pour l'ouverture automatique du rapport HTML (sinon le chemin est affiché).

Utilisation

Depuis une session Claude Code :

/cc-canary 60d /cc-canary-html 30d

La fenêtre par défaut est de 60 jours ; accepte 7j, 14j, 30j, 60j, 90j, 180j.

Ce que vous obtenez

Verdict — STABLE / RÉGRESSION SUSPECTÉE / RÉGRESSION CONFIRMÉE / NON CONCLUSIF
Tableau des métriques principales — comparaison avant/après avec bandes vert/jaune/rouge
Barres de tendance hebdomadaires — coût (USD, vérifié par rapport à ccusage), ratio lecture/édition, boucles de raisonnement, tokens/tour
Comparaison inter-versions — même utilisateur, différentes versions du modèle, en contrôlant le mix de tâches
Date d'inflexion détectée automatiquement — rupture du score de santé composite
Constatations avec classification côté modèle / côté utilisateur / ambiguë
Annexes — profondeur de réflexion par heure, décalage de fréquence de mots, transition de visibilité de la pensée sur trois périodes, taux de comportements par tour

Métriques suivies

Ratio lecture/édition — lectures de fichier par édition ; indicateur de la rigueur de l'investigation
Part d'écriture dans les mutations — Écriture / (Édition + Écriture) ; une part élevée signifie réécriture au lieu d'éditions chirurgicales
Boucles de raisonnement / 1 000 appels d'outil — phrases comme « laissez-moi réessayer », « oh attendez », « en fait »
Taux de frustration — taux de mots de frustration dans vos prompts
Taux de rédaction de la pensée — fraction des blocs de pensée rédigés par rapport aux visibles
Longueur moyenne de la pensée — indicateur de la profondeur de raisonnement
Tours API par tour utilisateur — appels API par message utilisateur
Tokens par tour utilisateur — volume total de tokens par message utilisateur

Plus des annexes pour l'arrêt prématuré, les erreurs auto-admises, le vocabulaire de raccourci, les interruptions utilisateur, etc.

Comment ça fonctionne

Analyse — Un script Python (stdlib uniquement) parcourt ~/.claude/projects/**/*.jsonl, filtre par fenêtre, exclut les sessions de sous-agent.
Déduplication — Les messages de l'assistant sont dédupliqués sur (message.id, requestId) car Claude Code écrit le même message dans plusieurs JSONL lorsque les sessions sont reprises ou bifurquées.
Agrégation — Métriques par session : mix d'outils, ratio lecture/édition, phrases de boucle de raisonnement, erreurs auto-admises, arrêts prématurés, interruptions, utilisation de tokens, coût (tarifs actuels de Claude 4.x), profondeur de pensée par heure.
Détection d'inflexion — Score de santé composite par jour ; argmax de |avant − après| sur les dates candidates avec un plancher de 0,75σ. Par défaut, division par la médiane des timestamps si aucune rupture n'est claire.
Pré-rendu du rapport — Le script écrit un squelette markdown/HTML avec chaque tableau et diagramme à barres rempli. Environ 20 emplacements narratifs laissés pour que Claude les remplisse.
Remplissage et sauvegarde — Claude lit le squelette, écrit la narration, sauvegarde le fichier final. Temps d'exécution total : ~2,5 s pour le script + 10–20 s pour la narration de Claude.

📖 Lire le code source complet : HN AI Agents

CC-Canary : Détectez les régressions dans Claude Code grâce à une analyse JSONL locale

Installation

Utilisation

Ce que vous obtenez

Métriques suivies

Comment ça fonctionne

👀 See Also

EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle

Claude-kit : Système de gestion de configuration pour les projets de code Claude

Memorine : Un système de mémoire locale pour agents OpenClaw utilisant Python et SQLite

Claw Code Agent : Réimplémentation en Python de l'Architecture Claude Code pour Modèles Locaux