EvalShift: Open-Source-CLI zur LLM-Regressionserkennung

EvalShift ist ein quelloffenes Python-CLI, das entwickelt wurde, um Regressionen beim Wechsel zwischen LLMs oder Modellversionen zu erkennen. Es führt Ihre goldenen Inputsuiten sowohl gegen das Quell- als auch das Zielmodell aus, bewertet die Ausgaben und erstellt einen lokalen HTML-Bericht – ohne Backend, Konten oder Telemetrie.

Hauptfunktionen

Vergleich von Quell- und Zielmodell über LiteLLM
JSONL-Gold-Suiten mit Tags/Slices
Strukturelle Evaluatoren: JSON-Schema, Regex, Länge
Semantischer Evaluator: Embedding-Ähnlichkeit
LLM-als-Richter Paarvergleich
Tool-Call-Evaluatoren: Tool-Auswahl, Argumentabgleich, Ablaufstruktur
Gepaarte statistische Tests: t-Test / Wilcoxon
Effektstärken: Cohens d
Multiples-Testen-Korrektur: Benjamini-Hochberg
Slice-Aufschlüsselungen
Lokales Caching zur Kostenkontrolle
Fortsetzbare Läufe
Einzeldatei-HTML-Bericht + JSON-Ausgabe

Das enge Ziel des Projekts ist die Migrationssicherheit: „Kann ich Modelle wechseln, ohne mein Prompt-/Agentenverhalten zu beeinträchtigen?“ Der Autor betont, dass stille Agentenregressionen erkannt werden – z. B. ein neueres Modell, das eine anständig aussehende endgültige Antwort liefert, aber einen erforderlichen Tool-Aufruf überspringt, das falsche Tool aufruft oder Argumente verändert.

Anwendungsfälle

Claude 4.5 → Claude 5
GPT-5 → GPT-6
Gemini 2 → 3
Lokales Modell → gehostetes Modell

Der Autor bittet um Feedback zur Nützlichkeit für lokale vs. gehostete Modelle, zu den wichtigsten Evaluatortypen für lokale LLM-Workflows und ob Tool-Call-/Structured-Output-Regressionen ein echtes Problem darstellen. Das Repo ist MIT-lizenziert.

📖 Read the full source: r/LocalLLaMA

EvalShift: Open-Source-CLI zur Erkennung von LLM-Regressionen bei der Modellmigration

Hauptfunktionen

Anwendungsfälle

👀 Siehe auch

OCTO-VEC: Open-Source-Virtual-Software-Unternehmen mit 24 KI-Agenten

OnPrem.LLM AgentExecutor: Starten Sie abgesicherte KI-Agenten mit integrierten Tools

Automatische Sitzungsstatusverwaltung für Claude Code Handoff

Clooks: Eine persistente Hook-Laufzeitumgebung für Claude Code