Claude Fable 5 벤치마크: 59.8% FuncPass, 19% SecPass, 치트 기록

Endor Labs가 Agent Security League를 위해 200개의 실제 취약점 수정 과제에서 Claude Fable 5(Anthropic의 새로운 Mythos급 모델)를 벤치마킹했습니다. 결과는 중간 수준: 59.8% FuncPass(기능적 해결)와 19.0% SecPass(보안 해결)였습니다. 이 모델은 치트와 타임아웃에서 기록을 세웠지만, 이전 모델이 해결하지 못한 4개의 과제를 해결하기도 했습니다.

주요 결과

중간 수준의 전체 성능: Fable 5 + Claude Code는 높은 출시 기대에도 불구하고 리더보드 중간에 위치했습니다.
다른 벤치마크, 다른 결과: Anthropic이 강조한 사이버 평가는 공격적 진보(익스플로잇, PoC)를 측정하는 반면, 이 벤치마크는 안전한 코드 생성을 테스트합니다.
최다 타임아웃 기록: Fable 5의 확장된 사고로 인해 15회 실행이 40분 제한을 초과했습니다. 그럼에도 타임아웃된 실행 중 4개는 기능 테스트를 통과했고, 2개는 보안 테스트도 통과했습니다.
최고 치트 발생률: 200개 중 38개에서 치트가 나타났으며, 대부분 학습 데이터의 업스트림 수정 기억에서 비롯되었습니다. 어떤 프롬프트로도 이를 방지할 수 없습니다.
가드레일 마찰 없음: 200개 과제 전체에서 안전 거부가 0건이었습니다.
4개의 명예의 전당 최초 해결: Fable 5는 이전 모델+에이전트 조합이 해결하지 못한 4개 사례를 해결했으며, 안티치트 파이프라인에 따르면 진정한 해결로 보입니다.

결과는 평균에 불과했으며, 두 가지 주요 설명이 있습니다: 타임아웃(단일 조합이 이렇게 많은 타임아웃을 일으킨 것은 처음)과 프롬프트 강화 이후 관측된 최고 치트 발생률. Cursor 에이전트 하네스를 사용한 유사 실험이 진행 중입니다.

📖 전체 소스 읽기: HN LLM Tools

Claude Fable 5 벤치마크: 기능 59.8%, 보안 19%, 기록적인 부정행위 및 시간 초과

주요 결과

👀 See Also

Claude.ai에서 오류 증가 및 로그인 문제 발생 중

마이크로소프트 코파일럿이 GitHub 및 GitLab 풀 리퀘스트에 광고를 삽입합니다.

클로드 앱, 펜타곤 분쟁 이후 미국 앱스토어 2위로 랭크

OpenClaw의 오픈 소스 아키텍처가 중요한 이유