AMD Strix Halo 45개 테스트: 로컬 LLM 19개 벤치마크 결과

실제 LLM 사용 사례를 위한 실용적 벤치마킹

홈랩 환경을 갖춘 한 개발자가 일반적인 학술 벤치마크가 아닌 실제 사용 사례를 중심으로 설계된 맞춤형 45개 테스트 벤치마크 스위트를 사용해 로컬 LLM을 광범위하게 테스트했습니다. 테스트는 AMD Strix Halo 시스템(Ryzen AI MAX+ 395, 128GB RAM, 96GB 공유 VRAM)에서 Vulkan/RADV와 llama-server(kyuz0 Docker 이미지)를 사용해 실행되었습니다.

맞춤형 벤치마크의 중요성

해당 개발자는 대화형 코딩에는 Claude Opus를 사용하지만, 다음과 같은 24/7 서비스에는 로컬 모델이 필요합니다:

50개 이상의 이메일을 분류하기 위해 15분마다 실행되는 이메일 분류
모션 알림을 설명하기 위해 비전 모델을 사용하는 카메라 알림
식이 제약이 있는 식사 계획
세금 시나리오 및 포트폴리오 예측을 위한 재무 분석
홈어시스턴트 자동화 생성 및 검증

이러한 작업들은 MMLU 점수와 같은 일반 벤치마크로는 충분히 측정할 수 없는 빠르고 신뢰할 수 있으며 구조화된 출력 능력이 우수한 모델을 필요로 합니다.

45개 테스트 스위트

이 벤치마크는 12개 범주에 걸친 테스트를 포함하며, 각각은 Claude Opus 4.6이 특정 루브릭에 따라 0-10점으로 채점합니다:

코딩(4개 테스트): Docker Compose, systemd 서비스, Python 스크립트, 코드 리뷰
홈랩 운영(6개 테스트): 메모리 분석, OOM 디버깅, 디스크 트라이아지, 네트워크 디버그, 로그 파싱
도구 호출(5개 테스트): Proxmox pct/qm 명령, SSH 체인, Docker 작업, git 워크플로우
음식/식사 계획(6개 테스트): JSON 식사 계획, 준비 일정, 레시피 스케일링, 쇼핑 목록, 영양
재무(5개 테스트): 세금 계산, 포트폴리오 분석, FIRE 예측, 세금 손실 수확
이메일 분류(3개 테스트): 범주 할당, 모호한 사례, 구독 취소 결정
홈어시스턴트(3개 테스트): 자동화 YAML, 템플릿 센서, 조건
수학(4개 테스트): 모기지 상환, 확률, 정수론, 세금 최적화
추론(3개 테스트): 에너지 요금, 통계, 논리 제약
지시 따르기(3개 테스트): 형식 준수, JSON 출력, 부정적 제약
긴 컨텍스트(1개 테스트): 8K 토큰 인프라 문서에서 사실 추출
속도(2개 테스트): 첫 토큰까지 시간, 지속적 생성

개발자의 가장 일반적인 사용 사례를 위해 9개 테스트가 '중요' 항목으로 2배 가중치가 부여되며, 최대 가능 점수는 540점입니다.

테스트 방법론

각 테스트에는 좋은 답변을 구성하는 요소를 정의하는 특정 루브릭이 있습니다. 예를 들어, 메모리 분석 테스트는 '사용 가능한' 메모리(22G)가 '여유' 메모리(5.7G)가 아닌 실제 여유 메트릭이며, 스왑 사용량이 비중요하다는 것을 올바르게 식별해야 합니다. 세금 계산 테스트는 올바른 AGI, 과세 소득 및 세율 계산을 확인합니다. 모든 원시 응답과 루브릭은 교차 검증을 위해 저장됩니다.

테스트된 모델

개발자는 Vulkan과 llama-server를 사용하여 6개 계열의 19개 모델 구성을 테스트했으며, 그중에는 다음이 포함됩니다:

Qwen 계열: Qwen3.5-122B-A10B(10B 활성 MoE) - 이전에 프로덕션에서 사용됨, Qwen3-Coder-Next 80B-A3B(3B 활성)
Gemma 4 26B-A4B - 처음에는 고장난 것처럼 보이게 만든 두 가지 별도의 버그를 수정한 후 최상위에 위치함

개발자는 이것이 엄격한 학술적 방법론이 아니라 특정 홈랩 작업에 가장 적합한 모델을 결정하기 위한 실용적인 테스트라고 언급합니다.

📖 Read the full source: r/LocalLLaMA