CC-Canary: Erkennen Sie Regressionen im Claude-Code mit lokaler JSONL-Analyse

✍️ OpenClawRadar📅 Veröffentlicht: 24. April 2026🔗 Source
CC-Canary: Erkennen Sie Regressionen im Claude-Code mit lokaler JSONL-Analyse
Ad

CC-Canary ist ein Drift-Erkennungstool für Claude Code, verpackt als zwei installierbare Agent Skills. Es scannt die JSONL-Sitzungsprotokolle, die Claude Code bereits nach ~/.claude/projects/ schreibt, erkennt, ob das Modell bei Ihrer eigenen Arbeit abgedriftet ist, und erstellt einen teilbaren forensischen Bericht. Kein Netzwerk, kein Konto, keine Telemetrie, kein Hintergrund-Daemon – läuft mit Daten, die bereits auf Ihrer Festplatte liegen. Status: 0.x / Pre-Alpha.

Installation

Installation über npx skills:

npx skills add delta-hq/cc-canary

Oder einzelne Skills installieren:

npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html

Voraussetzungen: Python 3.8+ im PATH. macOS/Linux/WSL für automatisches Öffnen des HTML-Berichts (alternativ wird der Pfad ausgegeben).

Verwendung

Aus einer Claude Code-Sitzung:

/cc-canary 60d /cc-canary-html 30d

Das Fenster beträgt standardmäßig 60 Tage; akzeptiert 7d, 14d, 30d, 60d, 90d, 180d.

Was Sie erhalten

  • Befund – STABIL / VERDACHT AUF REGRESSION / BESTÄTIGTE REGRESSION / NICHT SCHLÜSSIG
  • Kopfzeilen-Metrik-Tabelle – Vorher-Nachher-Vergleich mit grünen/gelben/roten Bändern
  • Wöchentliche Trendbalken – Kosten (USD, verifiziert gegen ccsage), Lese-Bearbeiten-Verhältnis, Reasoning-Schleifen, Token pro Runde
  • Versionsübergreifender Vergleich – Gleicher Benutzer, verschiedene Modellversionen, kontrolliert nach Aufgabenmix
  • Automatisch erkanntes Wendepunktdatum – Bruch im zusammengesetzten Gesundheits-Score
  • Erkenntnisse mit modellseitiger / benutzerseitiger / mehrdeutiger Klassifizierung
  • Anhänge – Denktiefe nach Tageszeit, Wortverschiebung, Drei-Perioden-Sichtbarkeitsübergang des Denkens, Verhalten pro Runde
Ad

Verfolgte Metriken

  • Lese-Bearbeiten-Verhältnis – Dateilesungen pro Bearbeitung; Proxy für Gründlichkeit der Untersuchung
  • Schreibanteil an Mutationen – Schreiben / (Bearbeiten + Schreiben); hoher Anteil = Umschreiben statt chirurgischer Bearbeitungen
  • Reasoning-Schleifen pro 1.000 Tool-Aufrufen – Phrasen wie „lass mich nochmal versuchen“, „oh warte“, „eigentlich“
  • Frustrationsrate – Rate von Frustrationswörtern in Ihren Eingabeaufforderungen
  • Redaktionsrate des Denkens – Anteil der redigierten Denkblöcke im Vergleich zu sichtbaren
  • Mittlere Denklänge – Proxy für Denktiefe
  • API-Runden pro Benutzerrunde – API-Aufrufe pro Benutzernachricht
  • Token pro Benutzerrunde – Gesamttokenvolumen pro Benutzernachricht

Zusätzlich Anhänge zu vorzeitigem Abbruch, selbst eingestandenen Fehlern, Abkürzungsvokabular, Benutzerunterbrechungen usw.

Funktionsweise

  1. Scannen – Python-Skript (nur stdlib) durchläuft ~/.claude/projects/**/*.jsonl, filtert nach Zeitfenster, schließt Subagent-Sitzungen aus.
  2. Deduplizieren – Assistenznachrichten werden anhand von (message.id, requestId) dedupliziert, da Claude Code dieselbe Nachricht in mehrere JSONLs schreibt, wenn Sitzungen fortgesetzt oder verzweigt werden.
  3. Aggregieren – Metriken pro Sitzung: Tool-Mix, Lese-Bearbeiten-Verhältnis, Reasoning-Schleifen-Phrasen, selbst eingestandene Fehler, vorzeitige Stopps, Unterbrechungen, Token-Nutzung, Kosten (aktuelle Claude 4.x-Tarife), Denktiefe nach Tageszeit.
  4. Wendepunkt erkennen – Zusammengesetzter Gesundheits-Score pro Tag; argmax von |vorher − nachher| über Kandidatendaten mit 0,75σ-Boden. Fallback auf Median-Zeitstempel-Split, wenn kein Bruch klar erkennbar.
  5. Bericht vorrendern – Skript schreibt Markdown/HTML-Gerüst mit allen Tabellen und Balkendiagrammen. ~20 narrative Textlücken für Claude zum Füllen.
  6. Füllen & Speichern – Claude liest Gerüst, schreibt Narrativ, speichert endgültige Datei. Gesamtlaufzeit: ~2,5s Skript + 10–20s Claude-Narrativ.

📖 Quelltext lesen: HN AI Agents

Ad

👀 Siehe auch

Routerly: Selbst gehostetes LLM-Gateway mit Laufzeit-Routingrichtlinien und Budgetkontrolle
Werkzeuge

Routerly: Selbst gehostetes LLM-Gateway mit Laufzeit-Routingrichtlinien und Budgetkontrolle

Routerly ist ein kostenloses, quelloffenes, selbst gehostetes LLM-Gateway, das zur Laufzeit Modellauswahl basierend auf Routing-Richtlinien wie günstigste, schnellste oder leistungsfähigste ermöglicht, zusammen mit projektbezogenen Budgetgrenzen und Token-für-Token-Nachverfolgung. Es ist OpenAI-kompatibel für den nahtlosen Einsatz mit Tools wie Cursor, LangChain und Open WebUI.

OpenClawRadar
Wie Clawdbot 6 KI-Agenten mit einer produktionsstabilen Work Queue koordiniert
Werkzeuge

Wie Clawdbot 6 KI-Agenten mit einer produktionsstabilen Work Queue koordiniert

Das Team von Clawdbot entwickelte ein Arbeitssystem zur Koordination von 6 KI-Agenten (Design, Code, Marketing, Betrieb) für ihren KI-gesteuerten Shop. Das System umfasst atomare Aufgabenübernahme, einen Zustandsautomaten, Wiederholungslogik mit Backoff, Aufgabenketten, Heartbeat-Überwachung und einen Daemon-Orchestrator.

OpenClawRadar
Eine 4-stufige Wissensdatenbank-Architektur zur Verbesserung der Genauigkeit von KI-Agenten
Werkzeuge

Eine 4-stufige Wissensdatenbank-Architektur zur Verbesserung der Genauigkeit von KI-Agenten

Ein Entwickler erstellte eine strukturierte Wissensdatenbank mit über 200 Artikeln, um KI-Agenten domänenspezifischen Kontext zu bieten, und implementierte eine 4-stufige Pipeline mit Abfrageklassifizierung, die die Token-Kosten um etwa 40 % senkte.

OpenClawRadar
Open-Source SDK für KI-Wissenarbeit
Werkzeuge

Open-Source SDK für KI-Wissenarbeit

ClioAIs kw-sdk bietet einen strukturierten Rahmen für KI-Agenten, die Wissensarbeit leisten, und implementiert einen selbstverifizierenden Zyklus mit Aufgabenbriefing, rubric-Erstellung und Verifizierung.

OpenClawRadar