Anthropic, 중국 연구소들의 산업 규모 Claude AI 데이터 추출을 공개합니다

Anthropic은 Claude AI를 대상으로 한 대규모 데이터 추출 작업에 대한 세부 정보를 공개적으로 공개했습니다. 상황을 분석한 Reddit 게시물에 따르면, 이는 고립된 연구 활동이 아니라 여러 중국 AI 기업이 참여한 산업 수준의 노력이었습니다.
침해 규모
이 작업에는 세 개의 특정 주체가 관여했습니다: DeepSeek, Moonshot AI, 그리고 MiniMax입니다. 이 연구소들은 Claude의 API에 접근하기 위해 24,000개 이상의 사기 계정을 생성했습니다. 이러한 계정을 통해 그들은 자체 모델을 훈련시키기 위해 Claude에서 1,600만 건 이상의 교환을 긁어냈습니다.
합법적 증류와 불법적 증류의 구분
원본 자료는 표준 산업 관행과 여기서 발생한 일 사이의 차이점을 명확히 합니다:
- 표준 증류: 상업 고객을 위해 더 작고 효율적인 버전을 훈련시키기 위해 대형 모델 사용
- 불법적 증류: "능력 세탁"으로 묘사됨 - 미국 모델로부터 안전 장치와 논리 구조를 빼내어 외국 군사, 정보 및 감시 시스템에 직접 공급
더 넓은 함의
Anthropic은 이러한 공격이 점점 더 정교해지고 빈번해지고 있다고 경고하고 있습니다. API 사용의 "명예 시스템"은 그러한 작업을 방지하기에 불충분한 것으로 보입니다. 회사는 주요 AI 업체와 정책 입안자들 사이의 조정된 방어 조치를 요구하고 있습니다.
이 상황은 기존 안전 장치가 있더라도 API 엔드포인트를 통해 노출되면 모델 가중치가 얼마나 취약한지 강조합니다.
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

엔도 패밀리어: AI 에이전트를 위한 객체-역량 샌드박스
Endo Familiar는 AI 에이전트를 위한 객체-권한 보안을 구현합니다: 에이전트는 초기에 아무런 권한도 없이 시작되며, 특정 파일이나 디렉토리에 대한 명시적 참조만 받고, 샌드박스 코드에서 더 좁은 권한을 파생할 수 있습니다.

OpenClaw 보안 격차, 에이전트 권한 위임(APOA) 사양으로 해결
개발자가 OpenClaw의 보안 문제를 해결하기 위해 에이전트 권한 위임(APOA)이라는 오픈 사양을 발표했습니다. 현재 에이전트는 이메일 및 캘린더와 같은 서비스에 자연어 지침만을 가드레일로 접근하는 상황에서, 이 사양은 서비스별 권한, 시간 제한 접근, 감사 추적, 권한 철회 및 자격 증명 격리를 제안합니다.

FORGE: LLM 시스템을 위한 오픈 소스 AI 보안 테스트 프레임워크
FORGE는 실행 중에 자체 도구를 구축하고, 군집으로 자가 복제하며, 프롬프트 주입, 탈옥 퍼징, RAG 누출을 포함한 OWASP LLM Top 10 취약점을 다루는 자율 AI 보안 테스트 프레임워크입니다.

OpenClaw 보안 강화: 자율 에이전트 위험에 대한 다중 계층 보호
한 개발자가 자율 에이전트의 파괴적 명령 실행과 데이터 유출을 방지하기 위해 하드-거부 정규식 가드, 재귀적 난독화 해제기, AppArmor 프로필, 감사 통합을 포함한 다중 계층 보안 스택을 OpenClaw 코드베이스에 추가했습니다.