EvalShift: Open-Source-CLI zur Erkennung von LLM-Regressionen bei der Modellmigration

✍️ OpenClawRadar📅 Veröffentlicht: 15. Mai 2026🔗 Source
EvalShift: Open-Source-CLI zur Erkennung von LLM-Regressionen bei der Modellmigration
Ad

EvalShift ist ein quelloffenes Python-CLI, das entwickelt wurde, um Regressionen beim Wechsel zwischen LLMs oder Modellversionen zu erkennen. Es führt Ihre goldenen Inputsuiten sowohl gegen das Quell- als auch das Zielmodell aus, bewertet die Ausgaben und erstellt einen lokalen HTML-Bericht – ohne Backend, Konten oder Telemetrie.

Hauptfunktionen

  • Vergleich von Quell- und Zielmodell über LiteLLM
  • JSONL-Gold-Suiten mit Tags/Slices
  • Strukturelle Evaluatoren: JSON-Schema, Regex, Länge
  • Semantischer Evaluator: Embedding-Ähnlichkeit
  • LLM-als-Richter Paarvergleich
  • Tool-Call-Evaluatoren: Tool-Auswahl, Argumentabgleich, Ablaufstruktur
  • Gepaarte statistische Tests: t-Test / Wilcoxon
  • Effektstärken: Cohens d
  • Multiples-Testen-Korrektur: Benjamini-Hochberg
  • Slice-Aufschlüsselungen
  • Lokales Caching zur Kostenkontrolle
  • Fortsetzbare Läufe
  • Einzeldatei-HTML-Bericht + JSON-Ausgabe

Das enge Ziel des Projekts ist die Migrationssicherheit: „Kann ich Modelle wechseln, ohne mein Prompt-/Agentenverhalten zu beeinträchtigen?“ Der Autor betont, dass stille Agentenregressionen erkannt werden – z. B. ein neueres Modell, das eine anständig aussehende endgültige Antwort liefert, aber einen erforderlichen Tool-Aufruf überspringt, das falsche Tool aufruft oder Argumente verändert.

Ad

Anwendungsfälle

  • Claude 4.5 → Claude 5
  • GPT-5 → GPT-6
  • Gemini 2 → 3
  • Lokales Modell → gehostetes Modell

Der Autor bittet um Feedback zur Nützlichkeit für lokale vs. gehostete Modelle, zu den wichtigsten Evaluatortypen für lokale LLM-Workflows und ob Tool-Call-/Structured-Output-Regressionen ein echtes Problem darstellen. Das Repo ist MIT-lizenziert.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Modulus: Repository-übergreifende Wissensorchestrierung für KI-Codierungsagenten
Werkzeuge

Modulus: Repository-übergreifende Wissensorchestrierung für KI-Codierungsagenten

Modulus ist eine Desktop-Anwendung, die mehrere KI-Codierungsagenten mit gemeinsamem Projektgedächtnis über Repositorys hinweg ausführt. Sie löst Kontextprobleme zwischen Repositorys, indem sie Agenten ermöglicht, Abhängigkeiten zwischen verschiedenen Codebasen zu verstehen, ohne manuelle Erklärungen.

OpenClawRadar
2-Prompt-System zur Kontextübertragung zwischen Claude-Chats ohne Token-Verschwendung
Werkzeuge

2-Prompt-System zur Kontextübertragung zwischen Claude-Chats ohne Token-Verschwendung

Ein Entwickler teilt zwei Prompts, um eine gesamte Claude-Konversation in einen strukturierten Kontextblock zu komprimieren und in einen neuen Chat zu laden, wobei Entscheidungen, Arbeit und nächste Schritte erhalten bleiben.

OpenClawRadar
Erkennung stiller Werkzeugausfälle in KI-Codierungsagenten mit Vibeyard
Werkzeuge

Erkennung stiller Werkzeugausfälle in KI-Codierungsagenten mit Vibeyard

Vibeyard ist ein Tool, das erkennt, wenn KI-Coding-Agenten stille Tool-Fehler erleben – Situationen, in denen Agenten auf alternative Strategien zurückgreifen, ohne Entwickler zu benachrichtigen – und diese Ineffizienzen während der Sitzungen sichtbar macht. Es kann Korrekturen vorschlagen, um wiederholte ineffiziente Arbeitsabläufe zu verhindern.

OpenClawRadar
Claude Code fügt Fernsteuerungsfunktion für die Verwaltung mobiler Sitzungen hinzu
Werkzeuge

Claude Code fügt Fernsteuerungsfunktion für die Verwaltung mobiler Sitzungen hinzu

Claude Code ermöglicht es Entwicklern nun, Aufgaben in ihrem Terminal zu starten und Sitzungen von mobilen Geräten aus über die Claude-App oder claude.ai/code weiter zu steuern, während Claude lokal auf ihrem Computer läuft.

OpenClawRadar