ELO-Verlauf der KI-Modelle: Leistungsverfall über Zeit

Erwin Mayers Arena AI Model ELO History (Live-Tracker) zeichnet historische ELO-Bewertungen aus dem LMSYS Arena Leaderboard auf, um Leistungstrends der Flaggschiff-KI-Modelle sichtbar zu machen. Die Kernaussage: Modelle, die sich beim Launch großartig anfühlen, verschlechtern sich oft Wochen später aufgrund von stillen Updates, Quantisierung oder Änderungen an Sicherheits-Wrappern.

Hauptfunktionen

Eine Kurve pro Labor: Statt einem Spaghetti-Diagramm aller Varianten erhält jedes große KI-Labor eine durchgehende Linie, die zu jedem Zeitpunkt ihr höchstbewertetes Flaggschiff-Modell repräsentiert.
Logik zur Verfolgung von Flaggschiffen: Die Kurve bleibt beim Top-Modell (z. B. bleibt Opus aktiv, bis ein neues höher bewertetes Modell erscheint). Mittelklasse-Veröffentlichungen wie Sonnet verursachen keinen Sprung, solange Opus führt.
Inferenzmodi zusammengefasst: Suffixe wie -thinking, -reasoning, -high werden unter dem Basismodell zusammengefasst, um Hin- und Herspringen zu vermeiden.
Markierungen neuer Veröffentlichungen: Veröffentlichungen werden als beschriftete Punkte dargestellt, meist begleitet von Bewertungssprüngen.
Verschlechterung sichtbar: Abwärtstrends innerhalb des Lebenszyklus eines Modells zwischen Veröffentlichungen werden klar dargestellt.
Mobilfreundlich + Dark Mode inklusive.

Datenquelle

Die Daten werden täglich automatisch aus dem offiziellen LMSYS Arena Dataset auf Hugging Face abgerufen. Die Arena verwendet tausende blinde, von Menschen durchgeführte Crowdsourcing-Bewertungen über API-Endpunkte – nicht über Consumer-Web-UIs.

Kritischer blinder Fleck: Web UI vs. API

Der Autor weist auf eine wesentliche Einschränkung hin: LMSYS testet reine API-Modelle. Consumer-Oberflächen (chatgpt.com, gemini.com) fügen umfangreiche System-Prompts und Sicherheits-Wrapper hinzu und wechseln unter Last möglicherweise stillschweigend zu quantisierten Modellen. Das Projekt sucht historische ELO- oder Evaluierungsdatensätze von tatsächlichen Web-UIs, um die „Verschlechterung“ zu erfassen, die Nutzer erleben. PRs mit solchen Datensätzen sind willkommen (Repo-Link in der Fußzeile).

Für wen es gedacht ist

Entwickler und Forscher, die die LLM-Modellqualität im Laufe der Zeit verfolgen, insbesondere diejenigen, die KI-Agenten einsetzen, die auf konsistentem Modellverhalten basieren.

📖 Vollständige Quelle lesen: HN LLM Tools

Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit

Hauptfunktionen

Datenquelle

Kritischer blinder Fleck: Web UI vs. API

Für wen es gedacht ist

👀 Siehe auch

OpenClaw-Erweiterung leitet Anfragen über Claude Code CLI statt über die API weiter

Qwen 3.6 27B Quantisierungs-Benchmark: Q4_K_M schlägt Q8_0 bei praktischen Abwägungen

Claude-Code-Protokolldatei reduziert wiederholtes Nachfragen

Forge: Eine Claude-basierte IDE mit automatisierter Verifizierung und Projekt-DNA