CC-Canary: Regressionen im Claude-Code mit JSONL-Analyse erkennen

CC-Canary ist ein Drift-Erkennungstool für Claude Code, verpackt als zwei installierbare Agent Skills. Es scannt die JSONL-Sitzungsprotokolle, die Claude Code bereits nach ~/.claude/projects/ schreibt, erkennt, ob das Modell bei Ihrer eigenen Arbeit abgedriftet ist, und erstellt einen teilbaren forensischen Bericht. Kein Netzwerk, kein Konto, keine Telemetrie, kein Hintergrund-Daemon – läuft mit Daten, die bereits auf Ihrer Festplatte liegen. Status: 0.x / Pre-Alpha.

Installation

Installation über npx skills:

npx skills add delta-hq/cc-canary

Oder einzelne Skills installieren:

npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html

Voraussetzungen: Python 3.8+ im PATH. macOS/Linux/WSL für automatisches Öffnen des HTML-Berichts (alternativ wird der Pfad ausgegeben).

Verwendung

Aus einer Claude Code-Sitzung:

/cc-canary 60d /cc-canary-html 30d

Das Fenster beträgt standardmäßig 60 Tage; akzeptiert 7d, 14d, 30d, 60d, 90d, 180d.

Was Sie erhalten

Befund – STABIL / VERDACHT AUF REGRESSION / BESTÄTIGTE REGRESSION / NICHT SCHLÜSSIG
Kopfzeilen-Metrik-Tabelle – Vorher-Nachher-Vergleich mit grünen/gelben/roten Bändern
Wöchentliche Trendbalken – Kosten (USD, verifiziert gegen ccsage), Lese-Bearbeiten-Verhältnis, Reasoning-Schleifen, Token pro Runde
Versionsübergreifender Vergleich – Gleicher Benutzer, verschiedene Modellversionen, kontrolliert nach Aufgabenmix
Automatisch erkanntes Wendepunktdatum – Bruch im zusammengesetzten Gesundheits-Score
Erkenntnisse mit modellseitiger / benutzerseitiger / mehrdeutiger Klassifizierung
Anhänge – Denktiefe nach Tageszeit, Wortverschiebung, Drei-Perioden-Sichtbarkeitsübergang des Denkens, Verhalten pro Runde

Verfolgte Metriken

Lese-Bearbeiten-Verhältnis – Dateilesungen pro Bearbeitung; Proxy für Gründlichkeit der Untersuchung
Schreibanteil an Mutationen – Schreiben / (Bearbeiten + Schreiben); hoher Anteil = Umschreiben statt chirurgischer Bearbeitungen
Reasoning-Schleifen pro 1.000 Tool-Aufrufen – Phrasen wie „lass mich nochmal versuchen“, „oh warte“, „eigentlich“
Frustrationsrate – Rate von Frustrationswörtern in Ihren Eingabeaufforderungen
Redaktionsrate des Denkens – Anteil der redigierten Denkblöcke im Vergleich zu sichtbaren
Mittlere Denklänge – Proxy für Denktiefe
API-Runden pro Benutzerrunde – API-Aufrufe pro Benutzernachricht
Token pro Benutzerrunde – Gesamttokenvolumen pro Benutzernachricht

Zusätzlich Anhänge zu vorzeitigem Abbruch, selbst eingestandenen Fehlern, Abkürzungsvokabular, Benutzerunterbrechungen usw.

Funktionsweise

Scannen – Python-Skript (nur stdlib) durchläuft ~/.claude/projects/**/*.jsonl, filtert nach Zeitfenster, schließt Subagent-Sitzungen aus.
Deduplizieren – Assistenznachrichten werden anhand von (message.id, requestId) dedupliziert, da Claude Code dieselbe Nachricht in mehrere JSONLs schreibt, wenn Sitzungen fortgesetzt oder verzweigt werden.
Aggregieren – Metriken pro Sitzung: Tool-Mix, Lese-Bearbeiten-Verhältnis, Reasoning-Schleifen-Phrasen, selbst eingestandene Fehler, vorzeitige Stopps, Unterbrechungen, Token-Nutzung, Kosten (aktuelle Claude 4.x-Tarife), Denktiefe nach Tageszeit.
Wendepunkt erkennen – Zusammengesetzter Gesundheits-Score pro Tag; argmax von |vorher − nachher| über Kandidatendaten mit 0,75σ-Boden. Fallback auf Median-Zeitstempel-Split, wenn kein Bruch klar erkennbar.
Bericht vorrendern – Skript schreibt Markdown/HTML-Gerüst mit allen Tabellen und Balkendiagrammen. ~20 narrative Textlücken für Claude zum Füllen.
Füllen & Speichern – Claude liest Gerüst, schreibt Narrativ, speichert endgültige Datei. Gesamtlaufzeit: ~2,5s Skript + 10–20s Claude-Narrativ.