CC-Canary: Erkennen Sie Regressionen im Claude-Code mit lokaler JSONL-Analyse

CC-Canary ist ein Drift-Erkennungstool für Claude Code, verpackt als zwei installierbare Agent Skills. Es scannt die JSONL-Sitzungsprotokolle, die Claude Code bereits nach ~/.claude/projects/ schreibt, erkennt, ob das Modell bei Ihrer eigenen Arbeit abgedriftet ist, und erstellt einen teilbaren forensischen Bericht. Kein Netzwerk, kein Konto, keine Telemetrie, kein Hintergrund-Daemon – läuft mit Daten, die bereits auf Ihrer Festplatte liegen. Status: 0.x / Pre-Alpha.
Installation
Installation über npx skills:
npx skills add delta-hq/cc-canary
Oder einzelne Skills installieren:
npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html
Voraussetzungen: Python 3.8+ im PATH. macOS/Linux/WSL für automatisches Öffnen des HTML-Berichts (alternativ wird der Pfad ausgegeben).
Verwendung
Aus einer Claude Code-Sitzung:
/cc-canary 60d /cc-canary-html 30d
Das Fenster beträgt standardmäßig 60 Tage; akzeptiert 7d, 14d, 30d, 60d, 90d, 180d.
Was Sie erhalten
- Befund – STABIL / VERDACHT AUF REGRESSION / BESTÄTIGTE REGRESSION / NICHT SCHLÜSSIG
- Kopfzeilen-Metrik-Tabelle – Vorher-Nachher-Vergleich mit grünen/gelben/roten Bändern
- Wöchentliche Trendbalken – Kosten (USD, verifiziert gegen ccsage), Lese-Bearbeiten-Verhältnis, Reasoning-Schleifen, Token pro Runde
- Versionsübergreifender Vergleich – Gleicher Benutzer, verschiedene Modellversionen, kontrolliert nach Aufgabenmix
- Automatisch erkanntes Wendepunktdatum – Bruch im zusammengesetzten Gesundheits-Score
- Erkenntnisse mit modellseitiger / benutzerseitiger / mehrdeutiger Klassifizierung
- Anhänge – Denktiefe nach Tageszeit, Wortverschiebung, Drei-Perioden-Sichtbarkeitsübergang des Denkens, Verhalten pro Runde
Verfolgte Metriken
- Lese-Bearbeiten-Verhältnis – Dateilesungen pro Bearbeitung; Proxy für Gründlichkeit der Untersuchung
- Schreibanteil an Mutationen – Schreiben / (Bearbeiten + Schreiben); hoher Anteil = Umschreiben statt chirurgischer Bearbeitungen
- Reasoning-Schleifen pro 1.000 Tool-Aufrufen – Phrasen wie „lass mich nochmal versuchen“, „oh warte“, „eigentlich“
- Frustrationsrate – Rate von Frustrationswörtern in Ihren Eingabeaufforderungen
- Redaktionsrate des Denkens – Anteil der redigierten Denkblöcke im Vergleich zu sichtbaren
- Mittlere Denklänge – Proxy für Denktiefe
- API-Runden pro Benutzerrunde – API-Aufrufe pro Benutzernachricht
- Token pro Benutzerrunde – Gesamttokenvolumen pro Benutzernachricht
Zusätzlich Anhänge zu vorzeitigem Abbruch, selbst eingestandenen Fehlern, Abkürzungsvokabular, Benutzerunterbrechungen usw.
Funktionsweise
- Scannen – Python-Skript (nur stdlib) durchläuft
~/.claude/projects/**/*.jsonl, filtert nach Zeitfenster, schließt Subagent-Sitzungen aus. - Deduplizieren – Assistenznachrichten werden anhand von (message.id, requestId) dedupliziert, da Claude Code dieselbe Nachricht in mehrere JSONLs schreibt, wenn Sitzungen fortgesetzt oder verzweigt werden.
- Aggregieren – Metriken pro Sitzung: Tool-Mix, Lese-Bearbeiten-Verhältnis, Reasoning-Schleifen-Phrasen, selbst eingestandene Fehler, vorzeitige Stopps, Unterbrechungen, Token-Nutzung, Kosten (aktuelle Claude 4.x-Tarife), Denktiefe nach Tageszeit.
- Wendepunkt erkennen – Zusammengesetzter Gesundheits-Score pro Tag; argmax von |vorher − nachher| über Kandidatendaten mit 0,75σ-Boden. Fallback auf Median-Zeitstempel-Split, wenn kein Bruch klar erkennbar.
- Bericht vorrendern – Skript schreibt Markdown/HTML-Gerüst mit allen Tabellen und Balkendiagrammen. ~20 narrative Textlücken für Claude zum Füllen.
- Füllen & Speichern – Claude liest Gerüst, schreibt Narrativ, speichert endgültige Datei. Gesamtlaufzeit: ~2,5s Skript + 10–20s Claude-Narrativ.
📖 Quelltext lesen: HN AI Agents
👀 Siehe auch

Routerly: Selbst gehostetes LLM-Gateway mit Laufzeit-Routingrichtlinien und Budgetkontrolle
Routerly ist ein kostenloses, quelloffenes, selbst gehostetes LLM-Gateway, das zur Laufzeit Modellauswahl basierend auf Routing-Richtlinien wie günstigste, schnellste oder leistungsfähigste ermöglicht, zusammen mit projektbezogenen Budgetgrenzen und Token-für-Token-Nachverfolgung. Es ist OpenAI-kompatibel für den nahtlosen Einsatz mit Tools wie Cursor, LangChain und Open WebUI.

Wie Clawdbot 6 KI-Agenten mit einer produktionsstabilen Work Queue koordiniert
Das Team von Clawdbot entwickelte ein Arbeitssystem zur Koordination von 6 KI-Agenten (Design, Code, Marketing, Betrieb) für ihren KI-gesteuerten Shop. Das System umfasst atomare Aufgabenübernahme, einen Zustandsautomaten, Wiederholungslogik mit Backoff, Aufgabenketten, Heartbeat-Überwachung und einen Daemon-Orchestrator.

Eine 4-stufige Wissensdatenbank-Architektur zur Verbesserung der Genauigkeit von KI-Agenten
Ein Entwickler erstellte eine strukturierte Wissensdatenbank mit über 200 Artikeln, um KI-Agenten domänenspezifischen Kontext zu bieten, und implementierte eine 4-stufige Pipeline mit Abfrageklassifizierung, die die Token-Kosten um etwa 40 % senkte.

Open-Source SDK für KI-Wissenarbeit
ClioAIs kw-sdk bietet einen strukturierten Rahmen für KI-Agenten, die Wissensarbeit leisten, und implementiert einen selbstverifizierenden Zyklus mit Aufgabenbriefing, rubric-Erstellung und Verifizierung.