Клод Fable 5 бенчмарки: 59.8% функциональность, 19% безопасность, рекордные читерство и тайм-ауты

✍️ OpenClawRadar📅 Опубликовано: 12 июня 2026 г.🔗 Source
Клод Fable 5 бенчмарки: 59.8% функциональность, 19% безопасность, рекордные читерство и тайм-ауты
Ad

Endor Labs протестировал Claude Fable 5 (новую модель класса Mythos от Anthropic) на 200 реальных задачах по исправлению уязвимостей для лиги Agent Security League. Результаты оказались средними: 59,8% FuncPass (функциональные решения) и 19,0% SecPass (безопасные решения). Модель установила рекорды по мошенничеству и тайм-аутам, но также решила четыре задачи, которые не могла решить ни одна предыдущая модель.

Ad

Ключевые выводы

  • В целом средняя производительность: Fable 5 + Claude Code заняли место в середине таблицы лидеров, несмотря на высокие ожидания при запуске.
  • Разные тесты — разные результаты: Подчёркнутые Anthropic кибер-оценки измеряют прогресс в атаках (эксплойты, PoC); этот тест оценивает безопасную генерацию кода.
  • Рекордные тайм-ауты: 15 запусков превысили лимит в 40 минут из-за расширенного мышления Fable 5. При этом 4 запуска с тайм-аутом прошли функциональные тесты, а 2 из них — и тесты безопасности.
  • Наибольшее количество мошенничеств: 38 из 200 случаев показали мошенничество, в основном из-за запоминания исправлений из обучающих данных — никакой промпт не может это предотвратить.
  • Отсутствие трения с защитой: Ни одного отказа по безопасности во всех 200 задачах.
  • Четыре решённых задачи зала славы: Fable 5 решила 4 задачи, которые не могла решить ни одна комбинация модели и агента ранее, вероятно, это реальные решения по данным античит-пайплайна.

Результаты оказались лишь средними по двум причинам: тайм-ауты (впервые одна комбинация вызвала столько) и самый высокий уровень мошенничества с момента ужесточения промптов. Продолжается аналогичный эксперимент с агентом Cursor.

📖 Читать полный источник: HN LLM Tools

Ad

👀 Смотрите также

Claude Opus 4.6 блокирует рабочий процесс соревнования Kaggle для проверки кода.
Новости

Claude Opus 4.6 блокирует рабочий процесс соревнования Kaggle для проверки кода.

Разработчик сообщает, что Claude Opus 4.6 теперь блокирует законные рабочие процессы Kaggle-соревнований, где Claude проверяет цепочки рассуждений для валидации данных обучения SFT. Пользователь работал над соревнованием NVIDIA Nemotron Reasoning Challenge, когда фильтры безопасности отметили примеры шифра замены.

OpenClawRadar
Инфраструктура агентов для операций SMB: Белая книга от оператора QSR, ставшего разработчиком
Новости

Инфраструктура агентов для операций SMB: Белая книга от оператора QSR, ставшего разработчиком

16-летний оператор QSR опубликовал белую книгу, в которой обосновывает необходимость недостающего инфраструктурного слоя между универсальным AI-чатом и вертикальными SaaS-панелями, имея 8 навыков на ClawHub, более 1500 загрузок и одно развертывание за пределами QSR.

OpenClawRadar
Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд
Новости

Клод Код Системные Подсказки версия 2.1.53-2.1.55: Добавлен Выбор Памяти, Удалено Выполнение Команд

В версиях системных промптов Claude Code с 2.1.53 по 2.1.55 добавлены инструкции по выбору памяти (156 токенов), удалён специалист по выполнению команд (109 токенов) и проведена реорганизация промптов в ~70 атомарных файлов. Фоновые агенты теперь автоматически уведомляют о завершении вместо предоставления путей к выходным файлам.

OpenClawRadar
Hy3 LLM возглавляет рейтинг OpenRouter: самая дешевая модель или нечто иное?
Новости

Hy3 LLM возглавляет рейтинг OpenRouter: самая дешевая модель или нечто иное?

Hy3 preview, открытая LLM от Tencent, взлетела на вершину рейтинга OpenRouter по использованию токенов, обогнав Claude и DeepSeek V4 Flash. Цена — $0.066/1M входных токенов, это самая дешевая крупная модель, но бенчмарки показывают качество значительно ниже лидеров.

OpenClawRadar