AISI 평가: 클로드 미토스 프리뷰, CTF 73% 성공 및 다단계 공격 30% 해결

AI 보안 연구소(AISI)가 Anthropic의 Claude Mythos Preview에 대한 사이버 평가를 수행하여, 캡처 더 플래그(CTF) 과제 및 다단계 공격 시뮬레이션에서의 성능을 평가했습니다. 이 모델은 사이버 보안 역량에서 이전의 최첨단 모델들에 비해 상당한 개선을 보였습니다.

캡처 더 플래그(CTF) 결과

모델이 숨겨진 플래그를 찾아내기 위해 취약점을 식별하고 악용해야 하는 CTF 과제에서, Mythos Preview는 전문가 수준 과제에서 73%의 성공률을 달성했습니다. 이 전문가 수준 과제들은 2025년 4월 이전에는 어떤 모델도 완료할 수 없었던 것들입니다. 평가는 기술 비전문가 수준부터 전문가 수준까지의 난이도에 걸쳐 성능을 비교했으며, 모델들은 최대 5천만 토큰의 토큰 예산을 사용하여 테스트되었습니다.

사이버 레인지 결과

AISI는 초기 정찰부터 전체 네트워크 장악까지 이어지는 32단계 기업 네트워크 공격 시뮬레이션인 'The Last Ones'(TLO)를 구축했으며, 인간이 완료하는 데 약 20시간이 소요될 것으로 추정됩니다. Claude Mythos Preview는 처음부터 끝까지 TLO를 해결한 최초의 모델로, 10번의 시도 중 3번 성공했습니다. 모든 시도에서, 이 모델은 평균 32단계 중 22단계를 완료했습니다.

Claude Opus 4.6는 다음으로 성능이 좋은 모델로, 평균 16단계를 완료했습니다. 평가는 최대 1억 토큰의 토큰 예산을 사용했으며, 성능은 이 한계까지 계속해서 증가했습니다.

한계점과 맥락

이 모델은 운영 기술(OT)에 초점을 맞춘 사이버 레인지 'Cooling Tower'를 완료하지 못했지만, OT 특정 부분보다는 IT 부분에서 막혔습니다. AISI는 2년 전에는 사용 가능한 최고의 모델들도 초보자 수준의 사이버 과제를 간신히 완료할 수 있었던 반면, 지금은 Mythos Preview가 명시적으로 지시를 받고 네트워크 접근 권한을 부여받은 통제된 평가 환경에서 취약한 네트워크에 대한 다단계 공격을 실행하고 취약점을 자율적으로 발견 및 악용할 수 있었다고 언급했습니다.

📖 Read the full source: HN AI Agents

AISI 평가, 클로드 미토스 프리뷰의 CTF 및 다단계 공격에서의 사이버 역량을 보여줍니다

캡처 더 플래그(CTF) 결과

사이버 레인지 결과

한계점과 맥락

👀 See Also

클로의 규칙: 오픈클로 에이전트를 위한 오픈소스 보안 규칙 세트

에이전트실 보안 스캔, 블렌더 MCP 서버에서 AI 에이전트 위험 발견

클로드 AI 생성 애플리케이션을 위한 보안 체크리스트

OpenObscure: AI 에이전트를 위한 오픈소스 온디바이스 개인정보 보호 방화벽