Arena AI: Histórico de ELO e Degradação de LLMs

O Arena AI Model ELO History de Erwin Mayer (rastreador ao vivo) plota as classificações ELO históricas do ranking LMSYS Arena para expor tendências de desempenho dos modelos emblemáticos de IA. A percepção central: modelos que parecem ótimos no lançamento frequentemente degradam semanas depois devido a atualizações silenciosas, quantização ou mudanças nos wrappers de segurança.

Principais Recursos

Uma curva por laboratório: Em vez de um gráfico espaguete de cada variante, cada grande laboratório de IA recebe uma única linha contínua representando seu modelo emblemático com classificação mais alta em qualquer ponto no tempo.
Lógica de rastreamento de modelo emblemático: A curva segue o modelo de primeira linha (ex.: Opus permanece ativo até que um novo modelo com pontuação mais alta apareça). Lançamentos de nível médio como Sonnet não causam um salto enquanto o Opus lidera.
Modos de inferência mesclados: Sufixos como -thinking, -reasoning, -high são agrupados sob o modelo base para evitar oscilações.
Marcadores de novos lançamentos: Lançamentos são mostrados como pontos rotulados, normalmente acompanhados de saltos na pontuação.
Degradação visível: Tendências de queda dentro do ciclo de vida de um modelo entre lançamentos são claramente plotadas.
Compatível com dispositivos móveis + modo escuro incluídos.

Fonte dos Dados

Os dados são obtidos automaticamente diariamente do Dataset Oficial LMSYS Arena no Hugging Face. A Arena usa milhares de avaliações humanas cegas por crowdsourcing via endpoints de API — não interfaces web de consumo.

Ponto Cego Crítico: Interface Web vs. API

O autor reconhece uma limitação chave: o LMSYS testa modelos de API brutos. Interfaces de consumidor (chatgpt.com, gemini.com) adicionam prompts de sistema pesados, wrappers de segurança e podem alternar silenciosamente para modelos quantizados sob carga. O projeto busca conjuntos de dados ELO históricos ou de avaliação de interfaces web reais para capturar o "enfraquecimento" que os usuários experimentam. Pull requests com tais conjuntos de dados são bem-vindos (link do repositório no rodapé).

Para Quem É

Desenvolvedores e pesquisadores acompanhando a qualidade dos modelos de LLM ao longo do tempo, especialmente aqueles que implantam agentes de IA que dependem de um comportamento consistente do modelo.

📖 Leia a fonte completa: HN LLM Tools

Arena AI, Histórico de ELO do Modelo, Acompanha a Degradação de Desempenho de LLMs ao Longo do Tempo

Principais Recursos

Fonte dos Dados

Ponto Cego Crítico: Interface Web vs. API

Para Quem É

👀 See Also

Escudo de Navegador Agent: Extensão Gratuita OpenClaw Bloqueia Injeção de Prompt e Padrões Sombrios

WCAGent: Agente de IA de Código Aberto para QA de Acessibilidade Automatizada

HN SOTA: Rastreando a Popularidade de Modelos de Codificação via Comentários do Hacker News

Mapa Mental Interativo Visualiza o Ecossistema de Ferramentas Claude