EvalShift: CLI de código aberto para detectar regressões de LLM durante a migração de modelos

✍️ OpenClawRadar📅 Publicado: May 15, 2026🔗 Source
EvalShift: CLI de código aberto para detectar regressões de LLM durante a migração de modelos
Ad

EvalShift é um CLI Python de código aberto projetado para detectar regressões ao alternar entre LLMs ou versões de modelos. Ele executa seu conjunto de entradas douradas (golden inputs) tanto no modelo fonte quanto no destino, avalia as saídas e produz um relatório HTML local — sem backend, contas ou telemetria.

Principais características

  • Comparação de modelo fonte vs destino via LiteLLM
  • Conjuntos dourados JSONL com tags/fatias (tags/slices)
  • Avaliadores estruturais: schema JSON, regex, comprimento
  • Avaliador semântico: similaridade de embeddings
  • Avaliação pareada LLM-como-juiz
  • Avaliadores de chamada de ferramentas: seleção de ferramenta, correspondência de argumentos, estrutura de rastreamento
  • Testes estatísticos pareados: t-test / Wilcoxon
  • Tamanhos de efeito: d de Cohen
  • Correção para múltiplas comparações: Benjamini-Hochberg
  • Detalhamento por fatia
  • Cache local para controlar custos
  • Execuções retomáveis
  • Relatório HTML em único arquivo + saída JSON

O objetivo estreito do projeto é segurança na migração: "Posso trocar de modelo sem quebrar o comportamento do meu prompt/agente?" O autor enfatiza a detecção de regressões silenciosas de agentes — por exemplo, um modelo mais novo produzindo uma resposta final de aparência decente, mas pulando uma chamada de ferramenta necessária, chamando a ferramenta errada ou alterando argumentos.

Ad

Casos de uso

  • Claude 4.5 → Claude 5
  • GPT-5 → GPT-6
  • Gemini 2 → 3
  • Modelo local → modelo hospedado

O autor está buscando feedback sobre utilidade para modelos locais vs hospedados, tipos de avaliadores mais importantes para fluxos de trabalho de LLM local, e se regressões de chamada de ferramentas/saída estruturada são um ponto problemático real. O repositório é licenciado sob MIT.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Stagent: Camada de operações de código aberto para o Claude Agent SDK com governança local e orquestração de fluxos de trabalho
Tools

Stagent: Camada de operações de código aberto para o Claude Agent SDK com governança local e orquestração de fluxos de trabalho

Stagent é um espaço de trabalho de coordenação local-first e de código aberto construído sobre o Claude Agent SDK e a API Claude que fornece orquestração de fluxos de trabalho, guardrails de orçamento e governança com intervenção humana para agentes de IA. Inclui 15 superfícies de produto, 6 padrões de fluxo de trabalho, 52+ perfis de agentes reutilizáveis e roda inteiramente localmente com SQLite.

OpenClawRadar
Pesquisa Aura: Ferramenta local compila documentos em wiki navegável por IA com memória persistente
Tools

Pesquisa Aura: Ferramenta local compila documentos em wiki navegável por IA com memória persistente

Aura Research é uma ferramenta de código aberto que processa documentos brutos (PDFs, artigos, notas, código, 60+ formatos) em um wiki estruturado em markdown com artigos vinculados, páginas de conceitos e um índice mestre. Ele compacta tudo em um arquivo .aura otimizado para recuperação RAG e funciona 100% localmente, sem que nenhum dado saia da sua máquina.

OpenClawRadar
ClawPy: Implementação Python Minimalista de Arquivo Único do OpenClaw com Memória de Experiência
Tools

ClawPy: Implementação Python Minimalista de Arquivo Único do OpenClaw com Memória de Experiência

Um desenvolvedor criou o ClawPy, um script Python simplificado que implementa a mecânica de execução autônoma de tarefas do OpenClaw com um sistema de experiência persistente que aprende com erros e sucessos passados.

OpenClawRadar
HyperResearch: Habilidade de Código Claude de código aberto transforma-o em um agente de pesquisa profunda
Tools

HyperResearch: Habilidade de Código Claude de código aberto transforma-o em um agente de pesquisa profunda

HyperResearch transforma o Claude Code em um pipeline de pesquisa profunda de 16 etapas com armazenamento persistente de conhecimento, verificação de fatos e sessões web autenticadas. Código aberto, instalação com um único comando, supera OpenAI e Google no DeepResearch Bench.

OpenClawRadar