Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit

✍️ OpenClawRadar📅 Veröffentlicht: 14. Mai 2026🔗 Source
Arena KI-Modell ELO-Verlauf verfolgt LLM-Leistungsverfall über Zeit
Ad

Erwin Mayers Arena AI Model ELO History (Live-Tracker) zeichnet historische ELO-Bewertungen aus dem LMSYS Arena Leaderboard auf, um Leistungstrends der Flaggschiff-KI-Modelle sichtbar zu machen. Die Kernaussage: Modelle, die sich beim Launch großartig anfühlen, verschlechtern sich oft Wochen später aufgrund von stillen Updates, Quantisierung oder Änderungen an Sicherheits-Wrappern.

Hauptfunktionen

  • Eine Kurve pro Labor: Statt einem Spaghetti-Diagramm aller Varianten erhält jedes große KI-Labor eine durchgehende Linie, die zu jedem Zeitpunkt ihr höchstbewertetes Flaggschiff-Modell repräsentiert.
  • Logik zur Verfolgung von Flaggschiffen: Die Kurve bleibt beim Top-Modell (z. B. bleibt Opus aktiv, bis ein neues höher bewertetes Modell erscheint). Mittelklasse-Veröffentlichungen wie Sonnet verursachen keinen Sprung, solange Opus führt.
  • Inferenzmodi zusammengefasst: Suffixe wie -thinking, -reasoning, -high werden unter dem Basismodell zusammengefasst, um Hin- und Herspringen zu vermeiden.
  • Markierungen neuer Veröffentlichungen: Veröffentlichungen werden als beschriftete Punkte dargestellt, meist begleitet von Bewertungssprüngen.
  • Verschlechterung sichtbar: Abwärtstrends innerhalb des Lebenszyklus eines Modells zwischen Veröffentlichungen werden klar dargestellt.
  • Mobilfreundlich + Dark Mode inklusive.
Ad

Datenquelle

Die Daten werden täglich automatisch aus dem offiziellen LMSYS Arena Dataset auf Hugging Face abgerufen. Die Arena verwendet tausende blinde, von Menschen durchgeführte Crowdsourcing-Bewertungen über API-Endpunkte – nicht über Consumer-Web-UIs.

Kritischer blinder Fleck: Web UI vs. API

Der Autor weist auf eine wesentliche Einschränkung hin: LMSYS testet reine API-Modelle. Consumer-Oberflächen (chatgpt.com, gemini.com) fügen umfangreiche System-Prompts und Sicherheits-Wrapper hinzu und wechseln unter Last möglicherweise stillschweigend zu quantisierten Modellen. Das Projekt sucht historische ELO- oder Evaluierungsdatensätze von tatsächlichen Web-UIs, um die „Verschlechterung“ zu erfassen, die Nutzer erleben. PRs mit solchen Datensätzen sind willkommen (Repo-Link in der Fußzeile).

Für wen es gedacht ist

Entwickler und Forscher, die die LLM-Modellqualität im Laufe der Zeit verfolgen, insbesondere diejenigen, die KI-Agenten einsetzen, die auf konsistentem Modellverhalten basieren.

📖 Vollständige Quelle lesen: HN LLM Tools

Ad

👀 Siehe auch

Agents Room: Desktop-App zur Visualisierung von Claude-Code-Agent-Teams
Werkzeuge

Agents Room: Desktop-App zur Visualisierung von Claude-Code-Agent-Teams

Agents Room ist eine Electron-Desktop-Anwendung, die nach .claude/agents/-Ordnern sucht, Frontmatter liest und Agentenbeziehungen auf einer Leinwand mit automatischen Verbindungslinien visualisiert. Sie ermöglicht das Erstellen/Bearbeiten von Agenten, Fähigkeiten und Befehlen direkt in der Benutzeroberfläche, anstatt Markdown-Dateien zu bearbeiten.

OpenClawRadar
Claude Code LSP: Aktivierung des Language Server Protocol für schnellere und präzisere Code-Navigation
Werkzeuge

Claude Code LSP: Aktivierung des Language Server Protocol für schnellere und präzisere Code-Navigation

Claude Code wird standardmäßig ohne LSP ausgeliefert, aber durch dessen Aktivierung verwandelt sich die Code-Navigation von 30-60 Sekunden dauernden grep-Suchen in 50ms-Abfragen mit 100%iger Genauigkeit. Die Einrichtung erfordert ein Flag, das über ein GitHub-Issue entdeckt wurde, nicht über die offizielle Dokumentation.

OpenClawRadar
Effizienter Workflow mit Claude Code: Planung vor der Ausführung
Werkzeuge

Effizienter Workflow mit Claude Code: Planung vor der Ausführung

Boris Tane nutzt Claude Code mit einem strukturierten, planungsorientierten Ansatz, der sich auf detaillierte Forschung und Planung konzentriert, um die Kontrolle über Architekturentscheidungen zu behalten.

OpenClawRadar
9 kostenlose Claude-Code-Fähigkeiten für medizinische Forschungsabläufe
Werkzeuge

9 kostenlose Claude-Code-Fähigkeiten für medizinische Forschungsabläufe

Ein Radiologieforscher hat 9 Claude Code Skills als Open-Source veröffentlicht, die den medizinischen Forschungsablauf von der Literatursuche bis zur Manuskripterstellung abdecken. Die Skills umfassen PubMed-Suche mit Anti-Halluzinations-Verifizierung, Generierung von Statistikanalyse-Code und Erstellung von publikationsreifen Abbildungen.

OpenClawRadar