CC-Canary : Détectez les régressions dans Claude Code grâce à une analyse JSONL locale

✍️ OpenClawRadar📅 Publié: April 24, 2026🔗 Source
CC-Canary : Détectez les régressions dans Claude Code grâce à une analyse JSONL locale
Ad

CC-Canary est un outil de détection de dérive pour Claude Code, fourni sous forme de deux compétences d'agent installables. Il analyse les journaux de session au format JSONL que Claude Code écrit déjà dans ~/.claude/projects/, détecte si le modèle a dérivé sur votre propre travail et produit un rapport forensique partageable. Pas de réseau, pas de compte, pas de télémétrie, pas de démon en arrière-plan — il fonctionne sur les données déjà présentes sur votre disque. Statut : 0.x / pré-alpha.

Installation

Installez via npx skills :

npx skills add delta-hq/cc-canary

Ou installez les compétences individuellement :

npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html

Prérequis : Python 3.8+ sur le PATH. macOS/Linux/WSL pour l'ouverture automatique du rapport HTML (sinon le chemin est affiché).

Utilisation

Depuis une session Claude Code :

/cc-canary 60d /cc-canary-html 30d

La fenêtre par défaut est de 60 jours ; accepte 7j, 14j, 30j, 60j, 90j, 180j.

Ce que vous obtenez

  • Verdict — STABLE / RÉGRESSION SUSPECTÉE / RÉGRESSION CONFIRMÉE / NON CONCLUSIF
  • Tableau des métriques principales — comparaison avant/après avec bandes vert/jaune/rouge
  • Barres de tendance hebdomadaires — coût (USD, vérifié par rapport à ccusage), ratio lecture/édition, boucles de raisonnement, tokens/tour
  • Comparaison inter-versions — même utilisateur, différentes versions du modèle, en contrôlant le mix de tâches
  • Date d'inflexion détectée automatiquement — rupture du score de santé composite
  • Constatations avec classification côté modèle / côté utilisateur / ambiguë
  • Annexes — profondeur de réflexion par heure, décalage de fréquence de mots, transition de visibilité de la pensée sur trois périodes, taux de comportements par tour
Ad

Métriques suivies

  • Ratio lecture/édition — lectures de fichier par édition ; indicateur de la rigueur de l'investigation
  • Part d'écriture dans les mutations — Écriture / (Édition + Écriture) ; une part élevée signifie réécriture au lieu d'éditions chirurgicales
  • Boucles de raisonnement / 1 000 appels d'outil — phrases comme « laissez-moi réessayer », « oh attendez », « en fait »
  • Taux de frustration — taux de mots de frustration dans vos prompts
  • Taux de rédaction de la pensée — fraction des blocs de pensée rédigés par rapport aux visibles
  • Longueur moyenne de la pensée — indicateur de la profondeur de raisonnement
  • Tours API par tour utilisateur — appels API par message utilisateur
  • Tokens par tour utilisateur — volume total de tokens par message utilisateur

Plus des annexes pour l'arrêt prématuré, les erreurs auto-admises, le vocabulaire de raccourci, les interruptions utilisateur, etc.

Comment ça fonctionne

  1. Analyse — Un script Python (stdlib uniquement) parcourt ~/.claude/projects/**/*.jsonl, filtre par fenêtre, exclut les sessions de sous-agent.
  2. Déduplication — Les messages de l'assistant sont dédupliqués sur (message.id, requestId) car Claude Code écrit le même message dans plusieurs JSONL lorsque les sessions sont reprises ou bifurquées.
  3. Agrégation — Métriques par session : mix d'outils, ratio lecture/édition, phrases de boucle de raisonnement, erreurs auto-admises, arrêts prématurés, interruptions, utilisation de tokens, coût (tarifs actuels de Claude 4.x), profondeur de pensée par heure.
  4. Détection d'inflexion — Score de santé composite par jour ; argmax de |avant − après| sur les dates candidates avec un plancher de 0,75σ. Par défaut, division par la médiane des timestamps si aucune rupture n'est claire.
  5. Pré-rendu du rapport — Le script écrit un squelette markdown/HTML avec chaque tableau et diagramme à barres rempli. Environ 20 emplacements narratifs laissés pour que Claude les remplisse.
  6. Remplissage et sauvegarde — Claude lit le squelette, écrit la narration, sauvegarde le fichier final. Temps d'exécution total : ~2,5 s pour le script + 10–20 s pour la narration de Claude.

📖 Lire le code source complet : HN AI Agents

Ad

👀 See Also

EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle
Tools

EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle

EvalShift est un CLI Python sous licence MIT qui compare les sorties des LLM source et cible sur des invites, des agents et des workflows d'appel d'outils, générant un rapport de régression HTML local.

OpenClawRadar
Claude-kit : Système de gestion de configuration pour les projets de code Claude
Tools

Claude-kit : Système de gestion de configuration pour les projets de code Claude

Claude-kit est un outil open-source qui gère les configurations du répertoire .claude/ sur plusieurs projets. Il détecte automatiquement les piles technologiques, génère des configurations, audite la sécurité et la qualité, et synchronise les modifications sans écraser les personnalisations.

OpenClawRadar
Memorine : Un système de mémoire locale pour agents OpenClaw utilisant Python et SQLite
Tools

Memorine : Un système de mémoire locale pour agents OpenClaw utilisant Python et SQLite

Memorine est un système de mémoire local pour les agents OpenClaw qui utilise uniquement Python et SQLite, sans dépendances externes, appels API ou télémétrie. Il offre un stockage de faits avec recherche en texte intégral, dégradation de la mémoire, détection de contradictions, chaînage causal d'événements et recherche sémantique optionnelle via fastembed et sqlite-vec.

OpenClawRadar
Claw Code Agent : Réimplémentation en Python de l'Architecture Claude Code pour Modèles Locaux
Tools

Claw Code Agent : Réimplémentation en Python de l'Architecture Claude Code pour Modèles Locaux

Claw Code Agent est une réimplémentation Python de l'architecture de l'agent Claude Code, qui fonctionne avec des modèles open source locaux via des backends compatibles OpenAI comme vLLM et Ollama, incluant l'appel d'outils, les commandes slash et les permissions hiérarchisées.

OpenClawRadar