EvalShift: LLM 마이그레이션 성능 저하 감지 CLI

EvalShift는 LLM 또는 모델 버전 간 전환 시 회귀를 탐지하도록 설계된 오픈소스 Python CLI입니다. 골든 입력 스위트를 소스 및 대상 모델에 대해 실행하고, 출력을 평가하며, 로컬 HTML 보고서를 생성합니다 — 백엔드, 계정 또는 원격 측정이 필요 없습니다.

주요 기능

LiteLLM을 통한 소스 대 대상 모델 비교
태그/슬라이스가 있는 JSONL 골든 스위트
구조적 평가기: JSON 스키마, 정규식, 길이
의미론적 평가기: 임베딩 유사도
LLM-as-judge 쌍별 평가
도구 호출 평가기: 도구 선택, 인수 일치, 트레이스 구조
쌍별 통계 테스트: t-검정 / Wilcoxon
효과 크기: Cohen's d
다중 비교 보정: Benjamini-Hochberg
슬라이스 수준 분석
비용 제어를 위한 로컬 캐싱
재개 가능한 실행
단일 파일 HTML 보고서 + JSON 출력

프로젝트의 좁은 목표는 마이그레이션 안전성입니다: "프롬프트/에이전트 동작을 망가뜨리지 않고 모델을 전환할 수 있을까?" 저자는 조용한 에이전트 회귀 — 예를 들어, 최신 모델이 괜찮아 보이는 최종 답변을 생성하지만 필수 도구 호출을 건너뛰거나, 잘못된 도구를 호출하거나, 인수를 변경하는 경우 —를 잡아내는 것을 강조합니다.