EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle

✍️ OpenClawRadar📅 Publié: May 15, 2026🔗 Source
EvalShift : CLI open source pour détecter les régressions LLM lors de la migration de modèle
Ad

EvalShift est un CLI Python open-source conçu pour détecter les régressions lors du changement entre LLM ou versions de modèles. Il exécute votre suite d'entrées dorées sur les modèles source et cible, évalue les sorties et produit un rapport HTML local — sans backend, comptes ni télémétrie.

Fonctionnalités clés

  • Comparaison modèle source vs cible via LiteLLM
  • Suites dorées JSONL avec tags/tranches
  • Évaluateurs structurels : schéma JSON, regex, longueur
  • Évaluateur sémantique : similarité d'embedding
  • Évaluation par paire LLM-as-judge
  • Évaluateurs d'appels d'outils : sélection d'outil, correspondance d'arguments, structure de trace
  • Tests statistiques appariés : t-test / Wilcoxon
  • Tailles d'effet : d de Cohen
  • Correction pour comparaisons multiples : Benjamini-Hochberg
  • Répartitions par tranche
  • Cache local pour maîtriser les coûts
  • Exécutions reprenables
  • Rapport HTML fichier unique + sortie JSON

L'objectif étroit du projet est la sécurité de migration : « Puis-je changer de modèle sans casser le comportement de mon invite/agent ? » L'auteur insiste sur la détection des régressions silencieuses d'agents — par exemple, un modèle plus récent produisant une réponse finale acceptable mais sautant un appel d'outil nécessaire, appelant le mauvais outil ou modifiant des arguments.

Ad

Cas d'utilisation

  • Claude 4.5 → Claude 5
  • GPT-5 → GPT-6
  • Gemini 2 → 3
  • Modèle local → modèle hébergé

L'auteur recherche des retours sur l'utilité pour les modèles locaux vs hébergés, les types d'évaluateurs les plus importants pour les workflows LLM locaux, et si les régressions d'appels d'outils/sorties structurées sont un véritable point sensible. Le dépôt est sous licence MIT.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

API interne d'Airtable rétro-conçue exposée via MCP : plus de 60 outils pour Claude Code
Tools

API interne d'Airtable rétro-conçue exposée via MCP : plus de 60 outils pour Claude Code

Un développeur a fait de la rétro-ingénierie sur l'API interne d'Airtable et a construit un serveur MCP avec plus de 60 outils, permettant à Claude Code et à plus de 15 IDE de contrôler les vues de base de données, les champs calculés et les extensions. Déjà utilisé par plus de 2000 utilisateurs, il est gratuit et open source.

OpenClawRadar
Développeur teste Apple Intelligence pour les tâches de presse-papiers sur l'appareil
Tools

Développeur teste Apple Intelligence pour les tâches de presse-papiers sur l'appareil

Un développeur a créé un gestionnaire de presse-papiers en utilisant le framework Foundation Models d'Apple Intelligence, le trouvant raisonnable pour les tâches quotidiennes comme les résumés courts et les reformulations, mais limité sur le langage ambigu et les travaux détaillés.

OpenClawRadar
Utilisation de l'IDE OpenAI Codex avec des modèles Ollama locaux dans VSCodium
Tools

Utilisation de l'IDE OpenAI Codex avec des modèles Ollama locaux dans VSCodium

L'IDE OpenAI Codex peut être configuré pour fonctionner avec des modèles Ollama locaux dans VSCodium en utilisant des configurations spécifiques dans le fichier config.toml.

OpenClawRadar
Codeset améliore les agents de codage avec un contexte spécifique au dépôt provenant de l'historique git.
Tools

Codeset améliore les agents de codage avec un contexte spécifique au dépôt provenant de l'historique git.

Codeset génère des fichiers statiques à partir de l'historique git qui fournissent du contexte comme les bugs passés, les causes racines et les relations de co-changement. Les tests ont montré une amélioration de 5,3 points de pourcentage sur codeset-gym-python et de 2 points sur SWE-Bench Pro avec OpenAI Codex.

OpenClawRadar