AI 모델 ELO 등급 추적: 시간에 따른 LLM 성능 저하

Erwin Mayer의 Arena AI Model ELO History(실시간 트래커)는 LMSYS Arena 리더보드의 역사적 ELO 등급을 그래프로 그려 플래그십 AI 모델의 성능 추세를 보여줍니다. 핵심 통찰: 출시 당시 훌륭했던 모델이 종종 몇 주 후 무음 업데이트, 양자화 또는 안전 래퍼 변경으로 인해 성능이 저하됩니다.

주요 기능

연구소별 하나의 곡선: 모든 변형이 뒤섞인 스파게티 차트 대신, 각 주요 AI 연구소는 특정 시점에 가장 높은 평가를 받은 플래그십 모델을 나타내는 단일 연속선을 갖습니다.
플래그십 추적 로직: 곡선은 최고 등급 모델에 고정됩니다(예: Opus는 더 높은 점수의 새 모델이 나타날 때까지 활성 상태 유지). Sonnet 같은 중간급 릴리스는 Opus가 선두일 때 점프를 일으키지 않습니다.
추론 모드 통합: -thinking, -reasoning, -high와 같은 접미사는 기본 모델 아래에 통합되어 왔다갔다하는 것을 방지합니다.
신규 릴리스 마커: 릴리스는 레이블이 지정된 점으로 표시되며, 일반적으로 점수 상승이 동반됩니다.
성능 저하 시각화: 릴리스 사이의 모델 수명 주기 내 하향 추세가 명확하게 표시됩니다.
모바일 친화적 + 다크 모드 포함.

데이터 출처

데이터는 Hugging Face의 공식 LMSYS Arena 데이터세트에서 매일 자동으로 가져옵니다. Arena는 소비자 웹 UI가 아닌 API 엔드포인트를 통해 수천 개의 블라인드 크라우드소싱 인간 평가를 사용합니다.

중요 사각지대: 웹 UI 대 API

저자는 주요 한계를 인정합니다: LMSYS는 원시 API 모델을 테스트합니다. 소비자 인터페이스(chatgpt.com, gemini.com)는 무거운 시스템 프롬프트, 안전 래퍼를 추가하고 부하가 걸리면 자동으로 양자화된 모델로 전환할 수 있습니다. 이 프로젝트는 사용자가 경험하는 '너프'를 포착하기 위해 실제 웹 UI의 역사적 ELO 또는 평가 데이터세트를 찾고 있습니다. 이러한 데이터세트가 포함된 PR을 환영합니다(바닥글의 저장소 링크).