Historial ELO Arena AI: Rastrea degradación de LLM

El Historial ELO de Modelos de IA de Arena de Erwin Mayer (seguimiento en vivo) traza las puntuaciones ELO históricas del ranking de LMSYS Arena para exponer las tendencias de rendimiento de los modelos insignia de IA. La idea central: los modelos que se sienten geniales al lanzarse a menudo se degradan semanas después debido a actualizaciones silenciosas, cuantización o cambios en los envoltorios de seguridad.

Características principales

Una curva por laboratorio: En lugar de un gráfico enmarañado de cada variante, cada laboratorio importante de IA obtiene una única línea continua que representa su modelo insignia mejor valorado en cualquier momento.
Lógica de seguimiento insignia: La curva se adhiere al modelo de primer nivel (por ejemplo, Opus permanece activo hasta que aparece un nuevo modelo con mayor puntuación). Lanzamientos de gama media como Sonnet no provocan un salto mientras Opus lidera.
Modos de inferencia combinados: Sufijos como -thinking, -reasoning, -high se fusionan con el modelo base para evitar cambios constantes.
Marcadores de nuevos lanzamientos: Los lanzamientos se muestran como puntos etiquetados, generalmente acompañados de saltos en la puntuación.
Degradación visible: Las tendencias a la baja dentro del ciclo de vida de un modelo entre lanzamientos se trazan claramente.
Compatible con móviles y modo oscuro incluidos.

Fuente de datos

Los datos se obtienen automáticamente a diario del conjunto de datos oficial de LMSYS Arena en Hugging Face. El Arena utiliza miles de evaluaciones humanas ciegas y colaborativas a través de endpoints de API, no interfaces web de consumo.

Punto ciego crítico: interfaz web vs. API

El autor reconoce una limitación clave: LMSYS prueba modelos API sin procesar. Las interfaces de consumo (chatgpt.com, gemini.com) añaden prompts de sistema pesados, envoltorios de seguridad y pueden cambiar silenciosamente a modelos cuantizados bajo carga. El proyecto busca conjuntos de datos históricos de ELO o evaluaciones de interfaces web reales para capturar la "degradación" que experimentan los usuarios. Se aceptan pull requests con dichos conjuntos de datos (enlace al repositorio en el pie de página).

Para quién es

Desarrolladores e investigadores que rastrean la calidad de los modelos de lenguaje a lo largo del tiempo, especialmente aquellos que despliegan agentes de IA que dependen de un comportamiento consistente del modelo.

📖 Leer la fuente completa: HN LLM Tools

Historial de ELO del modelo Arena AI rastrea la degradación del rendimiento de LLM a lo largo del tiempo

Características principales

Fuente de datos

Punto ciego crítico: interfaz web vs. API

Para quién es

👀 Ver también

Actualizaciones de CodeLedger y Vibecop para el Seguimiento de Costos y Calidad en Codificación con IA Multi-Agente

MephisQuiz: Plataforma Gratuita de Cuestionarios Basados en Escenarios para la Evaluación de Roles de Ingeniería

Aplicación Móvil Fuera de la Red Incorpora Uso de Herramientas de IA en Dispositivo con una Mejora de Velocidad de 3 Veces

Steelman R5: El Modelo Ajustado de 14B Supera a Claude Opus en la Generación de Código Ada