EvalShift CLI: Detecte Regressões de LLM na Migração de Modelos

EvalShift é um CLI Python de código aberto projetado para detectar regressões ao alternar entre LLMs ou versões de modelos. Ele executa seu conjunto de entradas douradas (golden inputs) tanto no modelo fonte quanto no destino, avalia as saídas e produz um relatório HTML local — sem backend, contas ou telemetria.

Principais características

Comparação de modelo fonte vs destino via LiteLLM
Conjuntos dourados JSONL com tags/fatias (tags/slices)
Avaliadores estruturais: schema JSON, regex, comprimento
Avaliador semântico: similaridade de embeddings
Avaliação pareada LLM-como-juiz
Avaliadores de chamada de ferramentas: seleção de ferramenta, correspondência de argumentos, estrutura de rastreamento
Testes estatísticos pareados: t-test / Wilcoxon
Tamanhos de efeito: d de Cohen
Correção para múltiplas comparações: Benjamini-Hochberg
Detalhamento por fatia
Cache local para controlar custos
Execuções retomáveis
Relatório HTML em único arquivo + saída JSON

O objetivo estreito do projeto é segurança na migração: "Posso trocar de modelo sem quebrar o comportamento do meu prompt/agente?" O autor enfatiza a detecção de regressões silenciosas de agentes — por exemplo, um modelo mais novo produzindo uma resposta final de aparência decente, mas pulando uma chamada de ferramenta necessária, chamando a ferramenta errada ou alterando argumentos.

Casos de uso

Claude 4.5 → Claude 5
GPT-5 → GPT-6
Gemini 2 → 3
Modelo local → modelo hospedado

O autor está buscando feedback sobre utilidade para modelos locais vs hospedados, tipos de avaliadores mais importantes para fluxos de trabalho de LLM local, e se regressões de chamada de ferramentas/saída estruturada são um ponto problemático real. O repositório é licenciado sob MIT.

📖 Leia a fonte completa: r/LocalLLaMA

EvalShift: CLI de código aberto para detectar regressões de LLM durante a migração de modelos

Principais características

Casos de uso

👀 See Also

Código Zap: Gerador de Código AI Que Ensina HTML/CSS/JS Real para Crianças

Operador Zot Chrome: Deixe seu Agente de IA do Terminal Controlar o Navegador pelo Painel Lateral

Atualização do Cliente React OpenClaw Adiciona Modelo por Agente, Ferramenta CLI e Inicialização Automática

Agente-Xray: Ferramenta de código aberto para depurar falhas de agentes de IA a partir de logs de rastreamento