Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit

Erwin Mayers Arena AI Model ELO History (Live-Tracker) zeichnet historische ELO-Bewertungen aus dem LMSYS Arena Leaderboard auf, um Leistungstrends der Flaggschiff-KI-Modelle sichtbar zu machen. Die Kernaussage: Modelle, die sich beim Launch großartig anfühlen, verschlechtern sich oft Wochen später aufgrund von stillen Updates, Quantisierung oder Änderungen an Sicherheits-Wrappern.
Hauptfunktionen
- Eine Kurve pro Labor: Statt einem Spaghetti-Diagramm aller Varianten erhält jedes große KI-Labor eine durchgehende Linie, die zu jedem Zeitpunkt ihr höchstbewertetes Flaggschiff-Modell repräsentiert.
- Logik zur Verfolgung von Flaggschiffen: Die Kurve bleibt beim Top-Modell (z. B. bleibt Opus aktiv, bis ein neues höher bewertetes Modell erscheint). Mittelklasse-Veröffentlichungen wie Sonnet verursachen keinen Sprung, solange Opus führt.
- Inferenzmodi zusammengefasst: Suffixe wie
-thinking,-reasoning,-highwerden unter dem Basismodell zusammengefasst, um Hin- und Herspringen zu vermeiden. - Markierungen neuer Veröffentlichungen: Veröffentlichungen werden als beschriftete Punkte dargestellt, meist begleitet von Bewertungssprüngen.
- Verschlechterung sichtbar: Abwärtstrends innerhalb des Lebenszyklus eines Modells zwischen Veröffentlichungen werden klar dargestellt.
- Mobilfreundlich + Dark Mode inklusive.
Datenquelle
Die Daten werden täglich automatisch aus dem offiziellen LMSYS Arena Dataset auf Hugging Face abgerufen. Die Arena verwendet tausende blinde, von Menschen durchgeführte Crowdsourcing-Bewertungen über API-Endpunkte – nicht über Consumer-Web-UIs.
Kritischer blinder Fleck: Web UI vs. API
Der Autor weist auf eine wesentliche Einschränkung hin: LMSYS testet reine API-Modelle. Consumer-Oberflächen (chatgpt.com, gemini.com) fügen umfangreiche System-Prompts und Sicherheits-Wrapper hinzu und wechseln unter Last möglicherweise stillschweigend zu quantisierten Modellen. Das Projekt sucht historische ELO- oder Evaluierungsdatensätze von tatsächlichen Web-UIs, um die „Verschlechterung“ zu erfassen, die Nutzer erleben. PRs mit solchen Datensätzen sind willkommen (Repo-Link in der Fußzeile).
Für wen es gedacht ist
Entwickler und Forscher, die die LLM-Modellqualität im Laufe der Zeit verfolgen, insbesondere diejenigen, die KI-Agenten einsetzen, die auf konsistentem Modellverhalten basieren.
📖 Vollständige Quelle lesen: HN LLM Tools
👀 Siehe auch

Agents Room: Desktop-App zur Visualisierung von Claude-Code-Agent-Teams
Agents Room ist eine Electron-Desktop-Anwendung, die nach .claude/agents/-Ordnern sucht, Frontmatter liest und Agentenbeziehungen auf einer Leinwand mit automatischen Verbindungslinien visualisiert. Sie ermöglicht das Erstellen/Bearbeiten von Agenten, Fähigkeiten und Befehlen direkt in der Benutzeroberfläche, anstatt Markdown-Dateien zu bearbeiten.

Claude Code LSP: Aktivierung des Language Server Protocol für schnellere und präzisere Code-Navigation
Claude Code wird standardmäßig ohne LSP ausgeliefert, aber durch dessen Aktivierung verwandelt sich die Code-Navigation von 30-60 Sekunden dauernden grep-Suchen in 50ms-Abfragen mit 100%iger Genauigkeit. Die Einrichtung erfordert ein Flag, das über ein GitHub-Issue entdeckt wurde, nicht über die offizielle Dokumentation.

Effizienter Workflow mit Claude Code: Planung vor der Ausführung
Boris Tane nutzt Claude Code mit einem strukturierten, planungsorientierten Ansatz, der sich auf detaillierte Forschung und Planung konzentriert, um die Kontrolle über Architekturentscheidungen zu behalten.

9 kostenlose Claude-Code-Fähigkeiten für medizinische Forschungsabläufe
Ein Radiologieforscher hat 9 Claude Code Skills als Open-Source veröffentlicht, die den medizinischen Forschungsablauf von der Literatursuche bis zur Manuskripterstellung abdecken. Die Skills umfassen PubMed-Suche mit Anti-Halluzinations-Verifizierung, Generierung von Statistikanalyse-Code und Erstellung von publikationsreifen Abbildungen.