EvalShift : CLI open source pour détecter régressions LLM

EvalShift est un CLI Python open-source conçu pour détecter les régressions lors du changement entre LLM ou versions de modèles. Il exécute votre suite d'entrées dorées sur les modèles source et cible, évalue les sorties et produit un rapport HTML local — sans backend, comptes ni télémétrie.

Fonctionnalités clés

Comparaison modèle source vs cible via LiteLLM
Suites dorées JSONL avec tags/tranches
Évaluateurs structurels : schéma JSON, regex, longueur
Évaluateur sémantique : similarité d'embedding
Évaluation par paire LLM-as-judge
Évaluateurs d'appels d'outils : sélection d'outil, correspondance d'arguments, structure de trace
Tests statistiques appariés : t-test / Wilcoxon
Tailles d'effet : d de Cohen
Correction pour comparaisons multiples : Benjamini-Hochberg
Répartitions par tranche
Cache local pour maîtriser les coûts
Exécutions reprenables
Rapport HTML fichier unique + sortie JSON

L'objectif étroit du projet est la sécurité de migration : « Puis-je changer de modèle sans casser le comportement de mon invite/agent ? » L'auteur insiste sur la détection des régressions silencieuses d'agents — par exemple, un modèle plus récent produisant une réponse finale acceptable mais sautant un appel d'outil nécessaire, appelant le mauvais outil ou modifiant des arguments.

Cas d'utilisation

Claude 4.5 → Claude 5
GPT-5 → GPT-6
Gemini 2 → 3
Modèle local → modèle hébergé

L'auteur recherche des retours sur l'utilité pour les modèles locaux vs hébergés, les types d'évaluateurs les plus importants pour les workflows LLM locaux, et si les régressions d'appels d'outils/sorties structurées sont un véritable point sensible. Le dépôt est sous licence MIT.

📖 Lire la source complète : r/LocalLLaMA

EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle

Fonctionnalités clés

Cas d'utilisation

👀 See Also

Gestionnaire de projet de style Trello local pour agents OpenClaw utilisant des fichiers markdown

ClawVibe : Un assistant vocal mains libres iOS pour agents IA avec STT/TTS intégré

JetBrains présente un plugin pour le code Go moderne avec les agents IA Junie et Claude Code

Manifest Ajoute des Plans de Jetons MiniMax avec Prise en Charge du Modèle M2.7