CC-Canary: Claude Codeの回帰検出

CC-Canary は、Claude Code向けのドリフト検出ツールで、2つのインストール可能なAgent Skillとして提供されます。Claude Codeがすでに ~/.claude/projects/ に書き込んでいるJSONLセッションログをスキャンし、モデルがあなたの作業上でドリフトしていないかを検出し、共有可能なフォレンジックレポートを生成します。ネットワーク不要、アカウント不要、テレメトリなし、バックグラウンドデーモンなし — すでにディスク上にあるデータで動作します。ステータス: 0.x / プレアルファ版。

インストール

npx skills を使ってインストール:

npx skills add delta-hq/cc-canary

または個別のスキルをインストール:

npx skills add delta-hq/cc-canary --skill cc-canary npx skills add delta-hq/cc-canary --skill cc-canary-html

要件: Python 3.8+ がPATHに存在すること。macOS/Linux/WSLでHTMLレポートの自動開封に対応（フォールバックとしてパス表示）。

使い方

Claude Codeセッション内で実行:

/cc-canary 60d /cc-canary-html 30d

デフォルトの期間は60日。7d、14d、30d、60d、90d、180dに対応。

得られるもの

判定 — 維持 / 回帰の疑い / 回帰確定 / 判定不能
主要メトリクステーブル — 期間前後の比較（緑/黄/赤バンド）
週次トレンドバー — コスト（USD、ccusageで検証済み）、読み取り:編集比率、推論ループ、トークン数/ターン
バージョン間比較 — 同じユーザー、異なるモデルバージョン、タスク構成を調整
自動検出された変曲点 — 複合ヘルススコアの変化点
所見 — モデル側 / ユーザー側 / 曖昧に分類
付録 — 時間帯別思考深度、単語頻度変化、3期間の思考可視性推移、ターンごとの行動率

追跡するメトリクス

読み取り:編集比率 — 編集あたりのファイル読み取り数。調査の徹底度の指標。
書き込みの変更割合 — 書き込み / (編集 + 書き込み)。割合が高いと、精密な編集ではなく書き換えを行っていることを示す。
推論ループ / 1000ツール呼び出し — 「やり直し」「あっ待って」「実は」などのフレーズ。
フラストレーション率 — プロンプト中のフラストレーション単語の割合。
思考編集率 — 思考ブロックのうち編集されたものの割合。
平均思考長 — 推論深度の指標。
ユーザーターンあたりのAPIターン数 — ユーザーメッセージあたりのAPI呼び出し数。
ユーザーターンあたりのトークン数 — ユーザーメッセージあたりの総トークン数。

その他、早期停止、自己申告エラー、ショートカット語彙、ユーザー割り込みなどの付録も。

動作の仕組み

スキャン — Pythonスクリプト（stdlibのみ）が ~/.claude/projects/**/*.jsonl を走査し、期間でフィルタリングし、サブエージェントセッションを除外。
重複除去 — アシスタントメッセージは (message.id, requestId) で重複除去。Claude Codeはセッション再開やブランチ時に同じメッセージを複数のJSONLに書き込むため。
集計 — セッションごとのメトリクス: ツール混合、読み取り:編集比率、推論ループフレーズ、自己申告エラー、早期停止、割り込み、トークン使用量、コスト（現在のClaude 4.xレート）、時間帯別思考深度。
変曲点検出 — 日ごとの複合ヘルススコア。候補日における |before − after| のargmax（0.75σ下限）。閾値を超える変化がない場合は中央タイムスタンプで分割。
レポートの事前レンダリング — スクリプトがマークダウン/HTMLの骨格を書き、すべてのテーブルと棒グラフを埋め込む。約20のナラティブスロットをClaudeが埋めるために残す。
記入と保存 — Claudeが骨格を読み、ナラティブを書き、最終ファイルを保存。総実行時間: スクリプト約2.5秒 + Claudeナラティブ10～20秒。