EvalShift: CLI de código abierto para detectar regresiones de LLM durante la migración de modelos

✍️ OpenClawRadar📅 Publicado: 15 de mayo de 2026🔗 Source
EvalShift: CLI de código abierto para detectar regresiones de LLM durante la migración de modelos
Ad

EvalShift es una CLI de Python de código abierto diseñada para detectar regresiones al cambiar entre LLM o versiones de modelos. Ejecuta su suite de entradas de referencia tanto contra el modelo fuente como el destino, evalúa las salidas y produce un informe HTML local, sin backend, cuentas ni telemetría.

Características clave

  • Comparación de modelo fuente vs destino mediante LiteLLM
  • Suites de referencia JSONL con etiquetas/segmentos
  • Evaluadores estructurales: esquema JSON, expresión regular, longitud
  • Evaluador semántico: similitud de incrustaciones
  • Evaluación por pares LLM-como-juez
  • Evaluadores de llamadas a herramientas: selección de herramientas, coincidencia de argumentos, estructura de traza
  • Pruebas estadísticas pareadas: t-test / Wilcoxon
  • Tamaños del efecto: d de Cohen
  • Corrección de comparaciones múltiples: Benjamini-Hochberg
  • Desgloses por segmento
  • Caché local para controlar costos
  • Ejecuciones reanudables
  • Informe HTML en un solo archivo + salida JSON

El objetivo concreto del proyecto es la seguridad en la migración: "¿Puedo cambiar de modelo sin romper el comportamiento de mis indicaciones/agentes?" El autor enfatiza la detección de regresiones silenciosas en agentes, por ejemplo, un modelo más nuevo que produce una respuesta final aceptable pero omite una llamada a herramienta requerida, llama a la herramienta incorrecta o muta los argumentos.

Ad

Casos de uso

  • Claude 4.5 → Claude 5
  • GPT-5 → GPT-6
  • Gemini 2 → 3
  • Modelo local → modelo alojado

El autor busca comentarios sobre la utilidad para modelos locales frente a alojados, los tipos de evaluadores más importantes para flujos de trabajo locales de LLM, y si las regresiones en llamadas a herramientas/salidas estructuradas son un punto crítico real. El repositorio tiene licencia MIT.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

El usuario de Claude Code construye un complemento nvm para capturar el contexto de resolución de problemas.
Herramientas

El usuario de Claude Code construye un complemento nvm para capturar el contexto de resolución de problemas.

Un desarrollador creó un complemento de Claude llamado nvm (memoria no volátil) que convierte el historial de sesiones de Claude en tarjetas de markdown que documentan decisiones de resolución de problemas e ideas reutilizables. La herramienta aborda el problema de perder el rastro de cómo se resolvieron los problemas al usar asistentes de codificación con IA.

OpenClawRadar
MemRosetta agrega memoria persistente a Claude Code con una configuración de un solo comando.
Herramientas

MemRosetta agrega memoria persistente a Claude Code con una configuración de un solo comando.

MemRosetta v0.2.4 proporciona a Claude Code memoria entre sesiones mediante un solo comando de npm install. La herramienta incluye un servidor MCP con 6 herramientas de memoria, captura automática de sesiones y almacenamiento local en SQLite que puede compartirse con Cursor.

OpenClawRadar
El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens
Herramientas

El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens

AVP (Protocolo de Vectores de Agente) permite que los agentes LLM pasen la caché KV directamente entre ellos en lugar de texto, reduciendo el procesamiento de tokens en un 73-78% y logrando aceleraciones de 2-4x en los modelos Qwen, Llama y DeepSeek. El protocolo funciona con conectores de HuggingFace y vLLM y está disponible como un paquete de Python.

OpenClawRadar
OpenTabs: Servidor MCP con más de 100 complementos para acceder a herramientas de IA basadas en navegador.
Herramientas

OpenTabs: Servidor MCP con más de 100 complementos para acceder a herramientas de IA basadas en navegador.

OpenTabs es un servidor MCP junto con una extensión de Chrome que proporciona acceso a aplicaciones web a través de sus APIs internas en lugar de las APIs públicas. El sistema incluye más de 100 plugins que exponen aproximadamente 2,000 herramientas.

OpenClawRadar