Historial de ELO del modelo Arena AI rastrea la degradación del rendimiento de LLM a lo largo del tiempo

El Historial ELO de Modelos de IA de Arena de Erwin Mayer (seguimiento en vivo) traza las puntuaciones ELO históricas del ranking de LMSYS Arena para exponer las tendencias de rendimiento de los modelos insignia de IA. La idea central: los modelos que se sienten geniales al lanzarse a menudo se degradan semanas después debido a actualizaciones silenciosas, cuantización o cambios en los envoltorios de seguridad.
Características principales
- Una curva por laboratorio: En lugar de un gráfico enmarañado de cada variante, cada laboratorio importante de IA obtiene una única línea continua que representa su modelo insignia mejor valorado en cualquier momento.
- Lógica de seguimiento insignia: La curva se adhiere al modelo de primer nivel (por ejemplo, Opus permanece activo hasta que aparece un nuevo modelo con mayor puntuación). Lanzamientos de gama media como Sonnet no provocan un salto mientras Opus lidera.
- Modos de inferencia combinados: Sufijos como
-thinking,-reasoning,-highse fusionan con el modelo base para evitar cambios constantes. - Marcadores de nuevos lanzamientos: Los lanzamientos se muestran como puntos etiquetados, generalmente acompañados de saltos en la puntuación.
- Degradación visible: Las tendencias a la baja dentro del ciclo de vida de un modelo entre lanzamientos se trazan claramente.
- Compatible con móviles y modo oscuro incluidos.
Fuente de datos
Los datos se obtienen automáticamente a diario del conjunto de datos oficial de LMSYS Arena en Hugging Face. El Arena utiliza miles de evaluaciones humanas ciegas y colaborativas a través de endpoints de API, no interfaces web de consumo.
Punto ciego crítico: interfaz web vs. API
El autor reconoce una limitación clave: LMSYS prueba modelos API sin procesar. Las interfaces de consumo (chatgpt.com, gemini.com) añaden prompts de sistema pesados, envoltorios de seguridad y pueden cambiar silenciosamente a modelos cuantizados bajo carga. El proyecto busca conjuntos de datos históricos de ELO o evaluaciones de interfaces web reales para capturar la "degradación" que experimentan los usuarios. Se aceptan pull requests con dichos conjuntos de datos (enlace al repositorio en el pie de página).
Para quién es
Desarrolladores e investigadores que rastrean la calidad de los modelos de lenguaje a lo largo del tiempo, especialmente aquellos que despliegan agentes de IA que dependen de un comportamiento consistente del modelo.
📖 Leer la fuente completa: HN LLM Tools
👀 Ver también

La herramienta CLI de Relay guarda el contexto de la sesión de Claude cuando hay límites de tasa.
Relay es una herramienta CLI de Rust que lee las transcripciones de sesión .jsonl de Claude desde el disco y crea instantáneas completas de tu sesión, incluyendo conversación, llamadas a herramientas, tareas pendientes, estado de git y errores. Genera indicaciones de contexto para reanudar sesiones después de que se restablezcan los límites de tasa.

Conocimiento Cuervo: Un Complemento de Base de Conocimiento Buscable para Claude
Knowledge Raven es una herramienta que permite a Claude buscar en tus documentos desde fuentes como Confluence, Notion, Google Drive, Dropbox y GitHub a través de un complemento de Claude Desktop o un servidor MCP, proporcionando búsqueda semántica, búsqueda por palabras clave y recuperación completa de documentos.

lazyclaude: Una Interfaz de Usuario de Texto (TUI) para Gestionar la Configuración de Código de Claude
lazyclaude es una herramienta de interfaz de usuario de terminal inspirada en lazygit que proporciona una vista única para gestionar toda la configuración de Claude Code almacenada en disco, incluyendo archivos de memoria, habilidades, agentes, servidores MCP, configuraciones, permisos, hooks, atajos de teclado, sesiones, estadísticas, plugins y tareas pendientes.

DocMason: Base de Conocimiento de Agente Local para Archivos de Oficina Complejos
DocMason es una aplicación de agente nativa de repositorio que construye bases de conocimiento locales a partir de documentos de oficina complejos como PPTX, DOCX, Excel y PDF. Se ejecuta completamente dentro de Codex o Claude Code, manteniendo la estructura del documento y proporcionando respuestas rastreables con procedencia.