Anthropic, 중국 AI 연구소의 Claude 증류 공격 적발: 1,600만 건 교환

산업 규모의 모델 추출 작전

Anthropic은 세 개의 중국 AI 연구소가 Claude를 대상으로 한 조정된 증류 공격에 대한 상세한 조사 결과를 발표했습니다. 이 공격은 대규모로 가짜 계정을 생성하여 대량의 API 상호작용을 통해 Claude의 추론 능력을 추출하는 것을 포함했습니다.

Anthropic 보고서의 주요 공격 세부사항

DeepSeek, Moonshot, MiniMax가 24,000개 이상의 가짜 계정을 생성
Claude와의 총 교환 건수가 1,600만 건을 초과
MiniMax만 1,300만 건의 요청을 발사
Anthropic이 새 모델을 출시했을 때, MiniMax는 24시간 이내에 거의 절반의 트래픽을 전환
DeepSeek은 특히 사고 사슬과 검열 안전 답변을 목표로 삼음
연구소들이 방법을 적응시키면서 시간이 지남에 따라 공격의 정교함이 증가

AI 개발자를 위한 보안 함의

이 사건은 수십억 달러 규모의 연구소들이 체계적으로 독점 능력을 추출하려고 시도할 때 AI 모델 보안의 취약점을 강조합니다. 여러 조직에 걸쳐 지속되고 새로운 모델 출시에 적응하는 이러한 공격의 규모와 지속성은 이것이 고립된 사건이 아니라 지속적인 위협 벡터를 나타냄을 시사합니다.

사용된 방법(가짜 계정 생성, 특정 능력에 대한 표적 질의, 새로운 모델 버전에 대한 빠른 적응)은 잠재적으로 다른 AI 시스템에 대해서도 복제될 수 있어, 개발자들이 워크플로우에 통합하는 타사 AI 도구의 보안에 대한 의문을 제기합니다.

📖 전체 출처 읽기: r/ClaudeAI