中国AI企業がClaudeを蒸留？24,000偽アカウントで1,600万回アクセス

大規模な蒸留作戦

Anthropicの報告書は、3つの中国AI企業（DeepSeek、Moonshot AI、MiniMax）による組織的な蒸留活動を記録しています。この作戦では、約24,000の偽アカウントを作成し、最大20,000のアカウントを同時に実行するプロキシネットワークを通じてClaudeと1,600万回以上のやり取りを行いました。

具体的な蒸留手法

DeepSeekはClaudeに自身の推論を段階的に説明させ、その説明をトレーニングデータとして使用しました。また、中国の反体制派に関する政治的に敏感な質問にClaudeに回答させ、検閲回避データを構築しました。MiniMaxは1,300万回以上のやり取りを実行し、新しいClaudeモデルがリリースされてから24時間以内にそれに切り替えました。

ユーザーへの安全性への影響

報告書は、蒸留されたモデルが元の安全性メカニズムを保持する可能性は低いと直接述べています。日常的な質問では元のモデルと複製モデルの回答は似ていますが、医療、法律、微妙なトピックを含むエッジケースでは重大な違いが明らかになります。複製モデルは「誤った自信を持って突き進む」とされ、これは注意を教えるトレーニングが蒸留中に失われたためです。

Anthropicはこれを、1年間窓越しに本物の医師を見ていただけの医師に例えています。日常的な症例は適切に処理されるかもしれませんが、複雑な症例では保証がなく、ユーザーは手遅れになるまで日常的と複雑なケースを区別できません。