Claude Code流出で判明：反蒸留、潜入モード、フラストレーション検知

Anthropicは、CLIツールの完全な可読ソースコードを含む.mapファイルを、Claude Codeのnpmパッケージに誤って同梱して出荷しました。パッケージはその後撤回されましたが、コードはHacker Newsで広くミラーされ分析されました。これは、Anthropicのモデル仕様の別の最近の流出に続くものです。

蒸留防止：模倣者を汚染するための偽ツールの注入

claude.ts（301-313行）には、ANTI_DISTILLATION_CCというフラグがあります。有効にすると、Claude CodeはAPIリクエストでanti_distillation: ['fake_tools']を送信し、サーバーにシステムプロンプトに囮のツール定義を静かに注入するよう指示します。これは、競合モデルを訓練するためにAPIトラフィックを記録している誰かがいた場合、その訓練データを汚染するように設計されています。

有効化には4つの条件が必要です：ANTI_DISTILLATION_CCコンパイル時フラグ、CLIエントリーポイント、自社APIプロバイダー、およびtengu_anti_distill_fake_tool_injection GrowthBookフラグがtrueを返すこと。リクエストボディからanti_distillationフィールドを削除するMITMプロキシは、これを完全に回避します。CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS環境変数を真の値に設定すると、メカニズム全体が無効になります。

betas.ts（279-298行）の2番目の蒸留防止メカニズムは、サーバーサイドのコネクターテキスト要約を実装しています。有効にすると、APIはツール呼び出しの間のアシスタントのテキストをバッファリングし、要約し、暗号署名付きで要約を返します。これは、APIトラフィックの記録では完全な推論チェーンではなく、要約のみがキャプチャされることを意味します。

アンダーカバーモード：AIであることを隠すAI

ファイルundercover.tsは、Claude Codeが非内部リポジトリで使用される際に、Anthropic内部の痕跡をすべて除去するモードを実装しています。モデルに、「カピバラ」や「テング」などの内部コードネーム、内部Slackチャンネル、リポジトリ名、または「Claude Code」というフレーズ自体を決して言及しないよう指示します。15行目には「強制オフはありません。これはモデルコードネームの流出に対する防御です。」と記載されています。

CLAUDE_CODE_UNDERCOVER=1で強制的にオンにすることはできますが、強制的にオフにする方法はありません。外部ビルドでは、関数全体がデッドコード除去され、自明なreturn文になります。これは、オープンソースプロジェクトにおけるAnthropic従業員によるAI作成のコミットやPRには、AIが作成したことを示す表示がないことを意味します。