Arena AI 모델 ELO 기록, 시간에 따른 LLM 성능 저하 추적

✍️ OpenClawRadar📅 게시일: May 14, 2026🔗 Source
Arena AI 모델 ELO 기록, 시간에 따른 LLM 성능 저하 추적
Ad

Erwin Mayer의 Arena AI Model ELO History(실시간 트래커)는 LMSYS Arena 리더보드의 역사적 ELO 등급을 그래프로 그려 플래그십 AI 모델의 성능 추세를 보여줍니다. 핵심 통찰: 출시 당시 훌륭했던 모델이 종종 몇 주 후 무음 업데이트, 양자화 또는 안전 래퍼 변경으로 인해 성능이 저하됩니다.

주요 기능

  • 연구소별 하나의 곡선: 모든 변형이 뒤섞인 스파게티 차트 대신, 각 주요 AI 연구소는 특정 시점에 가장 높은 평가를 받은 플래그십 모델을 나타내는 단일 연속선을 갖습니다.
  • 플래그십 추적 로직: 곡선은 최고 등급 모델에 고정됩니다(예: Opus는 더 높은 점수의 새 모델이 나타날 때까지 활성 상태 유지). Sonnet 같은 중간급 릴리스는 Opus가 선두일 때 점프를 일으키지 않습니다.
  • 추론 모드 통합: -thinking, -reasoning, -high와 같은 접미사는 기본 모델 아래에 통합되어 왔다갔다하는 것을 방지합니다.
  • 신규 릴리스 마커: 릴리스는 레이블이 지정된 점으로 표시되며, 일반적으로 점수 상승이 동반됩니다.
  • 성능 저하 시각화: 릴리스 사이의 모델 수명 주기 내 하향 추세가 명확하게 표시됩니다.
  • 모바일 친화적 + 다크 모드 포함.
Ad

데이터 출처

데이터는 Hugging Face의 공식 LMSYS Arena 데이터세트에서 매일 자동으로 가져옵니다. Arena는 소비자 웹 UI가 아닌 API 엔드포인트를 통해 수천 개의 블라인드 크라우드소싱 인간 평가를 사용합니다.

중요 사각지대: 웹 UI 대 API

저자는 주요 한계를 인정합니다: LMSYS는 원시 API 모델을 테스트합니다. 소비자 인터페이스(chatgpt.com, gemini.com)는 무거운 시스템 프롬프트, 안전 래퍼를 추가하고 부하가 걸리면 자동으로 양자화된 모델로 전환할 수 있습니다. 이 프로젝트는 사용자가 경험하는 '너프'를 포착하기 위해 실제 웹 UI의 역사적 ELO 또는 평가 데이터세트를 찾고 있습니다. 이러한 데이터세트가 포함된 PR을 환영합니다(바닥글의 저장소 링크).

대상 사용자

시간에 따른 LLM 모델 품질을 추적하는 개발자 및 연구자, 특히 일관된 모델 동작에 의존하는 AI 에이전트를 배포하는 사람들.

📖 전체 출처 읽기: HN LLM Tools

Ad

👀 See Also

교육용 투자를 위한 위험 안전장치가 있는 AI 트레이딩 에이전트
Tools

교육용 투자를 위한 위험 안전장치가 있는 AI 트레이딩 에이전트

한 개발자가 클로드를 중개 계정에 연결하고 AI와 자금 사이에 리스크 엔진을 배치한 AI 기반 트레이딩 어시스턴트를 구축했습니다. 이 시스템에는 단일 주식에 포트폴리오의 50% 이상을 할당하려는 거래 차단, 하루 3% 손실 시 자동 거래 중단, 20% 손실 시 모든 것을 중단하는 킬 스위치 등의 안전 장치가 포함되어 있습니다.

OpenClawRadar
코딩 에이전트의 조용한 도구 오류: 숨겨진 효율성 손실
Tools

코딩 에이전트의 조용한 도구 오류: 숨겨진 효율성 손실

코딩 에이전트는 종종 도구 실패를 인지하지 못합니다. 실패 시 대체 전략으로 전환하여 토큰을 낭비하고 품질을 저하시키기 때문입니다. 오픈소스 도구 Vibeyard는 이러한 실패를 감지하고 수정 사항을 제안합니다.

OpenClawRadar
스카이클로: 텔레그램 제어 기능이 탑재된 클라우드 VPS용 러스트 AI 에이전트 런타임
Tools

스카이클로: 텔레그램 제어 기능이 탑재된 클라우드 VPS용 러스트 AI 에이전트 런타임

SkyClaw는 텔레그램을 유일한 인터페이스로 사용하는 클라우드 VPS 배포를 위해 설계된 6.9MB Rust 기반 AI 에이전트 런타임입니다. 셸 명령어 실행, 헤드리스 크롬을 통한 웹 브라우징, 파일 읽기/쓰기, URL 가져오기 및 다중 라운드 도구 체이닝을 수행합니다.

OpenClawRadar
Vektori의 메모리 아키텍처: Claude의 유출된 시스템 원칙
Tools

Vektori의 메모리 아키텍처: Claude의 유출된 시스템 원칙

Vektori는 Claude의 아키텍처에서 유출된 원칙에서 영감을 받아 AI 메모리를 위한 3계층 계층적 문장 그래프를 구현합니다. 이 시스템은 엄격한 품질 필터, 0.3 최소 점수의 회의적 검색을 사용하며 세션 간 수정 기록을 유지합니다.

OpenClawRadar