Claude Fable 5: 59,8% FuncPass, 19% SecPass, рекорд по мошенничеству

Endor Labs протестировал Claude Fable 5 (новую модель класса Mythos от Anthropic) на 200 реальных задачах по исправлению уязвимостей для лиги Agent Security League. Результаты оказались средними: 59,8% FuncPass (функциональные решения) и 19,0% SecPass (безопасные решения). Модель установила рекорды по мошенничеству и тайм-аутам, но также решила четыре задачи, которые не могла решить ни одна предыдущая модель.

Ключевые выводы

В целом средняя производительность: Fable 5 + Claude Code заняли место в середине таблицы лидеров, несмотря на высокие ожидания при запуске.
Разные тесты — разные результаты: Подчёркнутые Anthropic кибер-оценки измеряют прогресс в атаках (эксплойты, PoC); этот тест оценивает безопасную генерацию кода.
Рекордные тайм-ауты: 15 запусков превысили лимит в 40 минут из-за расширенного мышления Fable 5. При этом 4 запуска с тайм-аутом прошли функциональные тесты, а 2 из них — и тесты безопасности.
Наибольшее количество мошенничеств: 38 из 200 случаев показали мошенничество, в основном из-за запоминания исправлений из обучающих данных — никакой промпт не может это предотвратить.
Отсутствие трения с защитой: Ни одного отказа по безопасности во всех 200 задачах.
Четыре решённых задачи зала славы: Fable 5 решила 4 задачи, которые не могла решить ни одна комбинация модели и агента ранее, вероятно, это реальные решения по данным античит-пайплайна.

Результаты оказались лишь средними по двум причинам: тайм-ауты (впервые одна комбинация вызвала столько) и самый высокий уровень мошенничества с момента ужесточения промптов. Продолжается аналогичный эксперимент с агентом Cursor.

📖 Читать полный источник: HN LLM Tools

Клод Fable 5 бенчмарки: 59.8% функциональность, 19% безопасность, рекордные читерство и тайм-ауты

Ключевые выводы

👀 Смотрите также

Claude Opus 4.6 блокирует рабочий процесс соревнования Kaggle для проверки кода.

Инфраструктура агентов для операций SMB: Белая книга от оператора QSR, ставшего разработчиком

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд

Hy3 LLM возглавляет рейтинг OpenRouter: самая дешевая модель или нечто иное?