Anthropicは、中国のAI研究所によるClaudeへの産業規模の蒸留攻撃を報告しています。

産業規模のモデル抽出作戦
Anthropicは、3つの中国AI研究所によるClaudeへの協調的な蒸留攻撃の詳細をまとめた調査結果を公開しました。この攻撃には、大規模なAPIインタラクションを通じてClaudeの推論能力を抽出するために、大規模な不正アカウントの作成が含まれていました。
Anthropicの報告書からの主な攻撃詳細
- DeepSeek、Moonshot、MiniMaxが24,000以上の不正アカウントを作成
- Claudeとの総やり取り回数は1,600万回を超える
- MiniMaxだけで1,300万件のリクエストを実行
- Anthropicが新モデルをリリースすると、MiniMaxは24時間以内にトラフィックのほぼ半分をリダイレクト
- DeepSeekは特に思考連鎖と検閲安全な回答を標的にした
- 研究所が手法を適応させるにつれ、攻撃は時間とともに洗練度を増した
AI開発者へのセキュリティ的示唆
この事例は、数十億ドル規模の研究所が体系的に独自の能力を抽出しようとする際のAIモデルセキュリティの脆弱性を浮き彫りにしています。複数の組織にまたがり、新モデルリリースに適応するこれらの攻撃の規模と持続性は、これが孤立した事例ではなく、継続的な脅威ベクトルを表していることを示唆しています。
使用された手法(不正アカウント作成、特定能力のための標的クエリ、新モデルバージョンへの迅速な適応)は、他のAIシステムに対しても複製される可能性があり、開発者がワークフローに統合するサードパーティAIツールのセキュリティに疑問を投げかけています。
📖 完全なソースを読む: r/ClaudeAI
👀 See Also

セキュリティ警告:ClawProxyスクリプトがAPIキーを盗み、OpenRouterの請求額が大幅に増加
ある開発者が、サンドボックス化されたWSL Ubuntu 24.04システム上でRedditユーザーからクローズドソースのClawProxyスクリプトをインストールしたところ、OpenRouter APIキーが盗まれ、Google Vertex API経由でOpus 4.6を使用して一晩で多額の請求が発生しました。

LLMエージェントにおけるツール権限注入:ツール出力がシステム意図を上書きする場合
研究者がローカルLLMエージェントラボを構築し、「ツール権限インジェクション」を実証しました。これは、AIエージェントにおいてツールの出力がシステムの意図を上書きするシナリオです。

AIエージェントが個人ハッカーによる政府侵入とランサムウェア攻撃を可能にする
Claude CodeとChatGPTを使用した単独のオペレーターがメキシコ政府機関から150GBのデータを流出させ、その中には1億9500万件の納税者記録が含まれていた。別の攻撃者はClaude Codeを使用して、17の医療機関や緊急サービス組織に対する完全な恐喝キャンペーンを実行した。

Endo Familiar: AIエージェント向けオブジェクトケイパビリティサンドボックス
Endo FamiliarはAIエージェントに対してオブジェクトキャパビリティセキュリティを実装します。エージェントはゼロの環境権限から始まり、特定のファイルやディレクトリへの明示的な参照のみを受け取り、サンドボックス化されたコード内でより狭い権限を派生させることができます。