История рейтинга ELO модели Arena AI отслеживает снижение производительности LLM с течением времени

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source

История ELO моделей AI Arena от Erwin Mayer (живой трекер) отображает исторические рейтинги ELO из таблицы лидеров LMSYS Arena, выявляя тенденции производительности флагманских AI-моделей. Основное открытие: модели, которые кажутся отличными при запуске, часто деградируют через несколько недель из-за незаметных обновлений, квантизации или изменений в защитных обёртках.

Ключевые особенности

Одна кривая на лабораторию: Вместо спагетти-графика из множества вариантов, каждая крупная AI-лаборатория получает одну непрерывную линию, представляющую их самую высокорейтинговую флагманскую модель на текущий момент.
Логика отслеживания флагманов: Кривая привязана к топовой модели (например, Opus остаётся активной, пока не появится новая модель с более высоким рейтингом). Промежуточные релизы, такие как Sonnet, не вызывают скачка, пока лидирует Opus.
Слияние режимов инференса: Суффиксы вроде -thinking, -reasoning, -high сворачиваются в базовую модель, чтобы избежать переключений.
Маркеры новых релизов: Релизы отображаются как подписанные точки, обычно сопровождаемые скачками рейтинга.
Видимая деградация: Нисходящие тренды в жизненном цикле модели между релизами чётко отображаются.
Мобильная версия и тёмная тема включены.

Источник данных

Данные автоматически загружаются ежедневно из официального датасета LMSYS Arena на Hugging Face. Arena использует тысячи слепых краудсорсинговых человеческих оценок через API-эндпоинты, а не потребительские веб-интерфейсы.

Критическое слепое пятно: веб-интерфейс против API

Автор признаёт ключевое ограничение: LMSYS тестирует сырые API-модели. Потребительские интерфейсы (chatgpt.com, gemini.com) добавляют тяжёлые системные промпты, защитные обёртки и могут незаметно переключаться на квантизированные модели под нагрузкой. Проект ищет исторические данные ELO или оценок из реальных веб-интерфейсов, чтобы зафиксировать «ослабление», которое испытывают пользователи. PR с такими данными приветствуются (ссылка на репозиторий в подвале).

Для кого это

Для разработчиков и исследователей, отслеживающих качество LLM-моделей с течением времени, особенно для тех, кто разворачивает AI-агентов, полагающихся на стабильное поведение модели.

📖 Читать полный источник: HN LLM Tools

👀 Смотрите также

Инструменты

ScreenMind: Локальный ИИ с памятью, индексирующий всю активность вашего компьютера

ScreenMind захватывает экран, встречи и голосовые заметки, используя Gemma 4 E2B локально через llama.cpp. Работает на 4 ГБ+ VRAM с Q4-квантованием. Ищите прошлую активность, общайтесь с историей и подключайтесь к Claude/Cursor через MCP.

8 июн. 2026 г., 12:20 UTC

OpenClawRadar

Инструменты

ClawPy: Минимальная однодокументная реализация OpenClaw на Python с памятью опыта

Разработчик создал ClawPy — упрощённый скрипт на Python, который реализует механику автономного выполнения задач OpenClaw с системой постоянного опыта, обучающейся на прошлых ошибках и успехах.

12 мар. 2026 г., 02:45 UTC

OpenClawRadar

Инструменты

Трепан: Локальный аудитор безопасности VS Code для кода, созданного ИИ

Trepan — это расширение с открытым исходным кодом для VS Code, которое выступает в роли защитника безопасности для предложений кода, сгенерированных ИИ. Оно использует Ollama для проведения локальных проверок безопасности на соответствие правилам конкретного проекта в файле .trepan/system_rules.md.

21 мар. 2026 г., 17:45 UTC

OpenClawRadar

Инструменты

OmniCoder-9B: Агент для программирования с 9 миллиардами параметров, дообученный на 425 тысячах агентных траекторий.

Компания Tesslate выпустила OmniCoder-9B — агентную модель для программирования с 9 миллиардами параметров, дообученную на гибридной архитектуре Qwen3.5-9B. Она обучалась на более чем 425 000 отобранных траекторий агентного кодирования от Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex и Gemini 3.1 Pro.

13 мар. 2026 г., 03:45 UTC

OpenClawRadar