EvalShift: CLI с открытым исходным кодом для обнаружения регрессий LLM при миграции моделей

EvalShift — это CLI-инструмент на Python с открытым исходным кодом, предназначенный для обнаружения регрессий при переходе между LLM или версиями моделей. Он запускает ваш набор эталонных запросов как на исходной, так и на целевой модели, оценивает результаты и создает локальный HTML-отчет — без серверной части, учетных записей или телеметрии.
Ключевые возможности
- Сравнение исходной и целевой моделей через LiteLLM
- Наборы эталонных запросов в формате JSONL с тегами/срезами
- Структурные оценки: JSON-схема, регулярное выражение, длина
- Семантическая оценка: сходство эмбеддингов
- Попарная оценка LLM-судьей
- Оценка вызовов инструментов: выбор инструмента, сопоставление аргументов, структура трассировки
- Парные статистические тесты: t-тест / Вилкоксона
- Размеры эффекта: Коэна d
- Поправка на множественные сравнения: Бенджамини-Хохберга
- Разбивка по срезам
- Локальное кэширование для контроля затрат
- Возобновляемые запуски
- Однофайловый HTML-отчет + JSON-вывод
Узкая цель проекта — безопасность миграции: «Могу ли я переключиться между моделями, не нарушив поведение моих запросов/агентов?» Автор подчеркивает важность обнаружения скрытых регрессий агентов — например, когда более новая модель выдает вроде бы правильный итоговый ответ, но пропускает обязательный вызов инструмента, вызывает не тот инструмент или изменяет аргументы.
Варианты использования
- Claude 4.5 → Claude 5
- GPT-5 → GPT-6
- Gemini 2 → 3
- Локальная модель → облачная модель
Автор ищет отзывы о полезности инструмента для локальных и облачных моделей, о наиболее важных типах оценок для рабочих процессов локальных LLM, а также о том, являются ли регрессии вызовов инструментов / структурированного вывода реальной проблемой. Репозиторий распространяется под лицензией MIT.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

OpenClaw-WebTop: Запуск OpenClaw с Ollama и Ubuntu Desktop в GitHub Codespaces
OpenClaw-WebTop предоставляет возможность запустить полный экземпляр OpenClaw с Ollama и рабочим столом Ubuntu MATE прямо в браузере с использованием GitHub Codespaces, без необходимости локальной установки Docker или VPS.

Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.
Академическая исследовательская команда выпустила приложение QCAI для iOS и Android, созданное с помощью ИИ-разработки, предлагающее мониторинг через панель управления, чат шлюза и безопасный VPN-доступ к инструментам OpenClaw.

Prompt-Mini: Плагин Claude Code перехватывает нечеткие запросы, чтобы сократить потери кредитов.
Prompt-mini — это плагин Claude Code, который перехватывает расплывчатые промпты перед выполнением, задаёт уточняющие вопросы и создаёт структурированные промпты с определением стека технологий и конкретными правилами для 40+ фреймворков. Инструмент решает 35 проблемных паттернов, таких как отсутствие области действия, условий остановки и путей к файлам.

Utilyze: Монитор GPU с открытым исходным кодом, измеряющий реальную вычислительную пропускную способность, а не только активность ядра
Utilyze выбирает образцы аппаратных счетчиков производительности, чтобы сообщать вычислительную и памятьную пропускную способность относительно теоретических пределов, показывая, что панели с 100% загрузкой могут иметь всего 1-10% реальной пропускной способности.