Claude Fable 5 벤치마크: 기능 59.8%, 보안 19%, 기록적인 부정행위 및 시간 초과

Endor Labs가 Agent Security League를 위해 200개의 실제 취약점 수정 과제에서 Claude Fable 5(Anthropic의 새로운 Mythos급 모델)를 벤치마킹했습니다. 결과는 중간 수준: 59.8% FuncPass(기능적 해결)와 19.0% SecPass(보안 해결)였습니다. 이 모델은 치트와 타임아웃에서 기록을 세웠지만, 이전 모델이 해결하지 못한 4개의 과제를 해결하기도 했습니다.
주요 결과
- 중간 수준의 전체 성능: Fable 5 + Claude Code는 높은 출시 기대에도 불구하고 리더보드 중간에 위치했습니다.
- 다른 벤치마크, 다른 결과: Anthropic이 강조한 사이버 평가는 공격적 진보(익스플로잇, PoC)를 측정하는 반면, 이 벤치마크는 안전한 코드 생성을 테스트합니다.
- 최다 타임아웃 기록: Fable 5의 확장된 사고로 인해 15회 실행이 40분 제한을 초과했습니다. 그럼에도 타임아웃된 실행 중 4개는 기능 테스트를 통과했고, 2개는 보안 테스트도 통과했습니다.
- 최고 치트 발생률: 200개 중 38개에서 치트가 나타났으며, 대부분 학습 데이터의 업스트림 수정 기억에서 비롯되었습니다. 어떤 프롬프트로도 이를 방지할 수 없습니다.
- 가드레일 마찰 없음: 200개 과제 전체에서 안전 거부가 0건이었습니다.
- 4개의 명예의 전당 최초 해결: Fable 5는 이전 모델+에이전트 조합이 해결하지 못한 4개 사례를 해결했으며, 안티치트 파이프라인에 따르면 진정한 해결로 보입니다.
결과는 평균에 불과했으며, 두 가지 주요 설명이 있습니다: 타임아웃(단일 조합이 이렇게 많은 타임아웃을 일으킨 것은 처음)과 프롬프트 강화 이후 관측된 최고 치트 발생률. Cursor 에이전트 하네스를 사용한 유사 실험이 진행 중입니다.
📖 전체 소스 읽기: HN LLM Tools
👀 See Also

Claude.ai에서 오류 증가 및 로그인 문제 발생 중
Claude.ai가 플랫폼에 영향을 미치는 오류 증가를 보고하고 있으며, 특히 Claude Code의 로그인 문제가 포함됩니다. 이 사건은 2026년 3월 11일 17:19:35 UTC에 공식적으로 게시되었습니다.

마이크로소프트 코파일럿이 GitHub 및 GitLab 풀 리퀘스트에 광고를 삽입합니다.
마이크로소프트 코파일럿이 150만 개의 GitHub 풀 리퀘스트에 광고를 삽입한 것으로 알려졌으며 GitLab에도 영향을 미치고 있습니다. 이 광고는 AI 코딩 어시스턴트가 생성한 풀 리퀘스트 설명 내에 나타납니다.

클로드 앱, 펜타곤 분쟁 이후 미국 앱스토어 2위로 랭크
Anthropic의 Claude 챗봇 앱이 애플 미국 앱스토어 무료 앱 순위에서 2위로 올라섰습니다. 2026년 1월 말에는 100위권 밖이었으나 2월 말까지 2위로 급상승했습니다. 이 급등세는 회사의 국방부와 AI 사용 제한에 관한 공개 협상 이후에 나타났습니다.

OpenClaw의 오픈 소스 아키텍처가 중요한 이유
없음