EvalShift: CLI с открытым исходным кодом для обнаружения регрессий LLM при миграции моделей

✍️ OpenClawRadar📅 Опубликовано: 15 мая 2026 г.🔗 Source
EvalShift: CLI с открытым исходным кодом для обнаружения регрессий LLM при миграции моделей
Ad

EvalShift — это CLI-инструмент на Python с открытым исходным кодом, предназначенный для обнаружения регрессий при переходе между LLM или версиями моделей. Он запускает ваш набор эталонных запросов как на исходной, так и на целевой модели, оценивает результаты и создает локальный HTML-отчет — без серверной части, учетных записей или телеметрии.

Ключевые возможности

  • Сравнение исходной и целевой моделей через LiteLLM
  • Наборы эталонных запросов в формате JSONL с тегами/срезами
  • Структурные оценки: JSON-схема, регулярное выражение, длина
  • Семантическая оценка: сходство эмбеддингов
  • Попарная оценка LLM-судьей
  • Оценка вызовов инструментов: выбор инструмента, сопоставление аргументов, структура трассировки
  • Парные статистические тесты: t-тест / Вилкоксона
  • Размеры эффекта: Коэна d
  • Поправка на множественные сравнения: Бенджамини-Хохберга
  • Разбивка по срезам
  • Локальное кэширование для контроля затрат
  • Возобновляемые запуски
  • Однофайловый HTML-отчет + JSON-вывод

Узкая цель проекта — безопасность миграции: «Могу ли я переключиться между моделями, не нарушив поведение моих запросов/агентов?» Автор подчеркивает важность обнаружения скрытых регрессий агентов — например, когда более новая модель выдает вроде бы правильный итоговый ответ, но пропускает обязательный вызов инструмента, вызывает не тот инструмент или изменяет аргументы.

Ad

Варианты использования

  • Claude 4.5 → Claude 5
  • GPT-5 → GPT-6
  • Gemini 2 → 3
  • Локальная модель → облачная модель

Автор ищет отзывы о полезности инструмента для локальных и облачных моделей, о наиболее важных типах оценок для рабочих процессов локальных LLM, а также о том, являются ли регрессии вызовов инструментов / структурированного вывода реальной проблемой. Репозиторий распространяется под лицензией MIT.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

OpenClaw-WebTop: Запуск OpenClaw с Ollama и Ubuntu Desktop в GitHub Codespaces
Инструменты

OpenClaw-WebTop: Запуск OpenClaw с Ollama и Ubuntu Desktop в GitHub Codespaces

OpenClaw-WebTop предоставляет возможность запустить полный экземпляр OpenClaw с Ollama и рабочим столом Ubuntu MATE прямо в браузере с использованием GitHub Codespaces, без необходимости локальной установки Docker или VPS.

OpenClawRadar
Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.
Инструменты

Приложение QCAI предоставляет мобильный центр управления для экосистемы OpenClaw.

Академическая исследовательская команда выпустила приложение QCAI для iOS и Android, созданное с помощью ИИ-разработки, предлагающее мониторинг через панель управления, чат шлюза и безопасный VPN-доступ к инструментам OpenClaw.

OpenClawRadar
Prompt-Mini: Плагин Claude Code перехватывает нечеткие запросы, чтобы сократить потери кредитов.
Инструменты

Prompt-Mini: Плагин Claude Code перехватывает нечеткие запросы, чтобы сократить потери кредитов.

Prompt-mini — это плагин Claude Code, который перехватывает расплывчатые промпты перед выполнением, задаёт уточняющие вопросы и создаёт структурированные промпты с определением стека технологий и конкретными правилами для 40+ фреймворков. Инструмент решает 35 проблемных паттернов, таких как отсутствие области действия, условий остановки и путей к файлам.

OpenClawRadar
Utilyze: Монитор GPU с открытым исходным кодом, измеряющий реальную вычислительную пропускную способность, а не только активность ядра
Инструменты

Utilyze: Монитор GPU с открытым исходным кодом, измеряющий реальную вычислительную пропускную способность, а не только активность ядра

Utilyze выбирает образцы аппаратных счетчиков производительности, чтобы сообщать вычислительную и памятьную пропускную способность относительно теоретических пределов, показывая, что панели с 100% загрузкой могут иметь всего 1-10% реальной пропускной способности.

OpenClawRadar