История рейтинга ELO модели Arena AI отслеживает снижение производительности LLM с течением времени

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source
История рейтинга ELO модели Arena AI отслеживает снижение производительности LLM с течением времени
Ad

История ELO моделей AI Arena от Erwin Mayer (живой трекер) отображает исторические рейтинги ELO из таблицы лидеров LMSYS Arena, выявляя тенденции производительности флагманских AI-моделей. Основное открытие: модели, которые кажутся отличными при запуске, часто деградируют через несколько недель из-за незаметных обновлений, квантизации или изменений в защитных обёртках.

Ключевые особенности

  • Одна кривая на лабораторию: Вместо спагетти-графика из множества вариантов, каждая крупная AI-лаборатория получает одну непрерывную линию, представляющую их самую высокорейтинговую флагманскую модель на текущий момент.
  • Логика отслеживания флагманов: Кривая привязана к топовой модели (например, Opus остаётся активной, пока не появится новая модель с более высоким рейтингом). Промежуточные релизы, такие как Sonnet, не вызывают скачка, пока лидирует Opus.
  • Слияние режимов инференса: Суффиксы вроде -thinking, -reasoning, -high сворачиваются в базовую модель, чтобы избежать переключений.
  • Маркеры новых релизов: Релизы отображаются как подписанные точки, обычно сопровождаемые скачками рейтинга.
  • Видимая деградация: Нисходящие тренды в жизненном цикле модели между релизами чётко отображаются.
  • Мобильная версия и тёмная тема включены.
Ad

Источник данных

Данные автоматически загружаются ежедневно из официального датасета LMSYS Arena на Hugging Face. Arena использует тысячи слепых краудсорсинговых человеческих оценок через API-эндпоинты, а не потребительские веб-интерфейсы.

Критическое слепое пятно: веб-интерфейс против API

Автор признаёт ключевое ограничение: LMSYS тестирует сырые API-модели. Потребительские интерфейсы (chatgpt.com, gemini.com) добавляют тяжёлые системные промпты, защитные обёртки и могут незаметно переключаться на квантизированные модели под нагрузкой. Проект ищет исторические данные ELO или оценок из реальных веб-интерфейсов, чтобы зафиксировать «ослабление», которое испытывают пользователи. PR с такими данными приветствуются (ссылка на репозиторий в подвале).

Для кого это

Для разработчиков и исследователей, отслеживающих качество LLM-моделей с течением времени, особенно для тех, кто разворачивает AI-агентов, полагающихся на стабильное поведение модели.

📖 Читать полный источник: HN LLM Tools

Ad

👀 Смотрите также

Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов
Инструменты

Стирлинг-8B: Интерпретируемая языковая модель с атрибуцией на уровне токенов

Guide Labs выпустила Steerling-8B — языковую модель с 8 миллиардами параметров, обученную на 1,35 триллиона токенов, которая может отслеживать любой сгенерированный токен до исходного контекста, понятных человеку концепций и источников обучающих данных. Модель демонстрирует конкурентоспособную производительность по сравнению с моделями, обученными на 2–7× большем объёме данных.

OpenClawRadar
Интеграция локальных агентов LLM с ComfyUI для пакетной генерации изображений на естественном языке
Инструменты

Интеграция локальных агентов LLM с ComfyUI для пакетной генерации изображений на естественном языке

Разработчик делится опытом подключения своего локального агента OpenClaw к ComfyUI, что позволяет использовать естественный язык для команд в рабочих процессах пакетной генерации изображений. Интеграция использует пользовательский навык агента, который преобразует английские запросы в JSON рабочего процесса ComfyUI и обрабатывает API-коммуникацию.

OpenClawRadar
Плагин Design Studio для Claude Code добавляет виртуальную дизайн-команду с 9 ролями и 16 командами.
Инструменты

Плагин Design Studio для Claude Code добавляет виртуальную дизайн-команду с 9 ролями и 16 командами.

Новый плагин Claude Code под названием Design Studio имитирует полноценную команду дизайнеров с 9 специализированными ролями, 16 слэш-командами и 5 агентами. Он автоматически определяет технологические стеки и включает более 8000 строк знаний о дизайне в справочных файлах.

OpenClawRadar
Фреймворк SIDJUA добавляет уровень управления к автономным ИИ-агентам
Инструменты

Фреймворк SIDJUA добавляет уровень управления к автономным ИИ-агентам

SIDJUA — это фреймворк со встроенным управлением, правилами авторизации на основе ролей и полными журналами аудита, который работает поверх любой AI-модели с API. Демо-версия показывает трехуровневую иерархию, масштабируемую до 7+1 уровней, с регистрацией каждого решения и отслеживанием затрат в реальном времени.

OpenClawRadar