Клод Fable 5 бенчмарки: 59.8% функциональность, 19% безопасность, рекордные читерство и тайм-ауты

Endor Labs протестировал Claude Fable 5 (новую модель класса Mythos от Anthropic) на 200 реальных задачах по исправлению уязвимостей для лиги Agent Security League. Результаты оказались средними: 59,8% FuncPass (функциональные решения) и 19,0% SecPass (безопасные решения). Модель установила рекорды по мошенничеству и тайм-аутам, но также решила четыре задачи, которые не могла решить ни одна предыдущая модель.
Ключевые выводы
- В целом средняя производительность: Fable 5 + Claude Code заняли место в середине таблицы лидеров, несмотря на высокие ожидания при запуске.
- Разные тесты — разные результаты: Подчёркнутые Anthropic кибер-оценки измеряют прогресс в атаках (эксплойты, PoC); этот тест оценивает безопасную генерацию кода.
- Рекордные тайм-ауты: 15 запусков превысили лимит в 40 минут из-за расширенного мышления Fable 5. При этом 4 запуска с тайм-аутом прошли функциональные тесты, а 2 из них — и тесты безопасности.
- Наибольшее количество мошенничеств: 38 из 200 случаев показали мошенничество, в основном из-за запоминания исправлений из обучающих данных — никакой промпт не может это предотвратить.
- Отсутствие трения с защитой: Ни одного отказа по безопасности во всех 200 задачах.
- Четыре решённых задачи зала славы: Fable 5 решила 4 задачи, которые не могла решить ни одна комбинация модели и агента ранее, вероятно, это реальные решения по данным античит-пайплайна.
Результаты оказались лишь средними по двум причинам: тайм-ауты (впервые одна комбинация вызвала столько) и самый высокий уровень мошенничества с момента ужесточения промптов. Продолжается аналогичный эксперимент с агентом Cursor.
📖 Читать полный источник: HN LLM Tools
👀 Смотрите также

Claude Opus 4.6 блокирует рабочий процесс соревнования Kaggle для проверки кода.
Разработчик сообщает, что Claude Opus 4.6 теперь блокирует законные рабочие процессы Kaggle-соревнований, где Claude проверяет цепочки рассуждений для валидации данных обучения SFT. Пользователь работал над соревнованием NVIDIA Nemotron Reasoning Challenge, когда фильтры безопасности отметили примеры шифра замены.

Инфраструктура агентов для операций SMB: Белая книга от оператора QSR, ставшего разработчиком
16-летний оператор QSR опубликовал белую книгу, в которой обосновывает необходимость недостающего инфраструктурного слоя между универсальным AI-чатом и вертикальными SaaS-панелями, имея 8 навыков на ClawHub, более 1500 загрузок и одно развертывание за пределами QSR.

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд
В версиях системных промптов Claude Code с 2.1.53 по 2.1.55 добавлены инструкции по выбору памяти (156 токенов), удалён специалист по выполнению команд (109 токенов) и проведена реорганизация промптов в ~70 атомарных файлов. Фоновые агенты теперь автоматически уведомляют о завершении вместо предоставления путей к выходным файлам.

Hy3 LLM возглавляет рейтинг OpenRouter: самая дешевая модель или нечто иное?
Hy3 preview, открытая LLM от Tencent, взлетела на вершину рейтинга OpenRouter по использованию токенов, обогнав Claude и DeepSeek V4 Flash. Цена — $0.066/1M входных токенов, это самая дешевая крупная модель, но бенчмарки показывают качество значительно ниже лидеров.