EvalShift: 모델 마이그레이션 중 LLM 성능 저하를 감지하는 오픈소스 CLI

EvalShift는 LLM 또는 모델 버전 간 전환 시 회귀를 탐지하도록 설계된 오픈소스 Python CLI입니다. 골든 입력 스위트를 소스 및 대상 모델에 대해 실행하고, 출력을 평가하며, 로컬 HTML 보고서를 생성합니다 — 백엔드, 계정 또는 원격 측정이 필요 없습니다.
주요 기능
- LiteLLM을 통한 소스 대 대상 모델 비교
- 태그/슬라이스가 있는 JSONL 골든 스위트
- 구조적 평가기: JSON 스키마, 정규식, 길이
- 의미론적 평가기: 임베딩 유사도
- LLM-as-judge 쌍별 평가
- 도구 호출 평가기: 도구 선택, 인수 일치, 트레이스 구조
- 쌍별 통계 테스트: t-검정 / Wilcoxon
- 효과 크기: Cohen's d
- 다중 비교 보정: Benjamini-Hochberg
- 슬라이스 수준 분석
- 비용 제어를 위한 로컬 캐싱
- 재개 가능한 실행
- 단일 파일 HTML 보고서 + JSON 출력
프로젝트의 좁은 목표는 마이그레이션 안전성입니다: "프롬프트/에이전트 동작을 망가뜨리지 않고 모델을 전환할 수 있을까?" 저자는 조용한 에이전트 회귀 — 예를 들어, 최신 모델이 괜찮아 보이는 최종 답변을 생성하지만 필수 도구 호출을 건너뛰거나, 잘못된 도구를 호출하거나, 인수를 변경하는 경우 —를 잡아내는 것을 강조합니다.
사용 사례
- Claude 4.5 → Claude 5
- GPT-5 → GPT-6
- Gemini 2 → 3
- 로컬 모델 → 호스티드 모델
저자는 로컬 모델 대 호스티드 모델에 대한 유용성, 로컬 LLM 워크플로에서 가장 중요한 평가기 유형, 그리고 도구 호출/구조화된 출력 회귀가 실제로 문제가 되는지에 대한 피드백을 구하고 있습니다. 저장소는 MIT 라이선스입니다.
📖 원문 읽기: r/LocalLLaMA
👀 See Also

TestThread: AI 에이전트를 위한 오픈 소스 테스트 프레임워크
TestThread는 라이브 엔드포인트에 대해 테스트를 실행하고 AI 진단과 함께 통과/실패 결과를 제공하며, 의미론적 매칭, PII 감지, CI/CD 통합과 같은 기능을 포함한 AI 에이전트용 오픈 소스 테스트 프레임워크입니다.

미니파이된 Electron 앱에서 Claude Desktop 릴리스 노트 자동화하기
한 개발자가 Claude Desktop의 리눅스 버전을 위해 새 버전이 출시될 때마다 릴리스 노트를 자동 생성하는 시스템을 구축했습니다. Anthropic이 Claude Desktop의 공식 릴리스 노트를 제공하지 않기 때문에, 이 솔루션은 각 업데이트의 변경 사항을 이해하려는 사용자들의 요구를 충족시킵니다.

Spectr: 픽셀 완벽한 클로드 클론을 위해 화면 녹화에서 앱 스펙을 작성하는 MCP
Spectr은 MCP 서버, CLI, Claude Code 스킬로, iOS 앱의 .mp4/.mov 화면 녹화를 받아 7개 섹션의 spec.md(16진수 색상 코드, 글꼴 두께, 간격, 전환, 탐색 그래프 포함)를 생성하여, 화면당 30분 걸리던 수동 스펙 작성을 없애줍니다.

로컬 LLM 추론을 위한 프록시 수준 루프 탐지
vLLM 프록시 뒤에서 Qwen3.6 MoE를 실행하던 개발자가 일반적인 신뢰성 문제에 부딪혔습니다: 모델이 추론 블록 내에서 자신을 반복하며 토큰을 소모하고 에이전트를 지연시키는 폭주 추론 루프입니다. 180+ 토큰/초 속도에서는 20-30초의 루프도 GPU 시간을 낭비하고 클라이언트 요청을 차단합니다. 그들은 프록시 계층에 위치하여 클라이언트에 도달하기 전에 스트리밍 출력에 대해 결정론적 검사를 적용하는 경량 가드를 구축했습니다.