EvalShift: CLI с открытым исходным кодом для обнаружения регрессий LLM

EvalShift — это CLI-инструмент на Python с открытым исходным кодом, предназначенный для обнаружения регрессий при переходе между LLM или версиями моделей. Он запускает ваш набор эталонных запросов как на исходной, так и на целевой модели, оценивает результаты и создает локальный HTML-отчет — без серверной части, учетных записей или телеметрии.

Ключевые возможности

Сравнение исходной и целевой моделей через LiteLLM
Наборы эталонных запросов в формате JSONL с тегами/срезами
Структурные оценки: JSON-схема, регулярное выражение, длина
Семантическая оценка: сходство эмбеддингов
Попарная оценка LLM-судьей
Оценка вызовов инструментов: выбор инструмента, сопоставление аргументов, структура трассировки
Парные статистические тесты: t-тест / Вилкоксона
Размеры эффекта: Коэна d
Поправка на множественные сравнения: Бенджамини-Хохберга
Разбивка по срезам
Локальное кэширование для контроля затрат
Возобновляемые запуски
Однофайловый HTML-отчет + JSON-вывод

Узкая цель проекта — безопасность миграции: «Могу ли я переключиться между моделями, не нарушив поведение моих запросов/агентов?» Автор подчеркивает важность обнаружения скрытых регрессий агентов — например, когда более новая модель выдает вроде бы правильный итоговый ответ, но пропускает обязательный вызов инструмента, вызывает не тот инструмент или изменяет аргументы.

Варианты использования

Claude 4.5 → Claude 5
GPT-5 → GPT-6
Gemini 2 → 3
Локальная модель → облачная модель

Автор ищет отзывы о полезности инструмента для локальных и облачных моделей, о наиболее важных типах оценок для рабочих процессов локальных LLM, а также о том, являются ли регрессии вызовов инструментов / структурированного вывода реальной проблемой. Репозиторий распространяется под лицензией MIT.

📖 Читать полный источник: r/LocalLLaMA

EvalShift: CLI с открытым исходным кодом для обнаружения регрессий LLM при миграции моделей

Ключевые возможности

Варианты использования

👀 Смотрите также

Портирование Autoresearch от Karpathy на Apple Neural Engine для повышения производительности на ватт

gui.new: Инструмент для Claude для отображения визуального вывода в виде доступных для общего доступа ссылок

Разработчик создает практичные навыки Claude для проектов Kotlin Multiplatform.

re_gent: Git для ИИ-агентов кодинга – Контроль версий активности агента