홈랩 개발자가 AMD Strix Halo에서 45가지 실용 테스트로 19개 로컬 LLM 벤치마크 진행

✍️ OpenClawRadar📅 게시일: April 14, 2026🔗 Source
홈랩 개발자가 AMD Strix Halo에서 45가지 실용 테스트로 19개 로컬 LLM 벤치마크 진행
Ad

실제 LLM 사용 사례를 위한 실용적 벤치마킹

홈랩 환경을 갖춘 한 개발자가 일반적인 학술 벤치마크가 아닌 실제 사용 사례를 중심으로 설계된 맞춤형 45개 테스트 벤치마크 스위트를 사용해 로컬 LLM을 광범위하게 테스트했습니다. 테스트는 AMD Strix Halo 시스템(Ryzen AI MAX+ 395, 128GB RAM, 96GB 공유 VRAM)에서 Vulkan/RADV와 llama-server(kyuz0 Docker 이미지)를 사용해 실행되었습니다.

맞춤형 벤치마크의 중요성

해당 개발자는 대화형 코딩에는 Claude Opus를 사용하지만, 다음과 같은 24/7 서비스에는 로컬 모델이 필요합니다:

  • 50개 이상의 이메일을 분류하기 위해 15분마다 실행되는 이메일 분류
  • 모션 알림을 설명하기 위해 비전 모델을 사용하는 카메라 알림
  • 식이 제약이 있는 식사 계획
  • 세금 시나리오 및 포트폴리오 예측을 위한 재무 분석
  • 홈어시스턴트 자동화 생성 및 검증

이러한 작업들은 MMLU 점수와 같은 일반 벤치마크로는 충분히 측정할 수 없는 빠르고 신뢰할 수 있으며 구조화된 출력 능력이 우수한 모델을 필요로 합니다.

45개 테스트 스위트

이 벤치마크는 12개 범주에 걸친 테스트를 포함하며, 각각은 Claude Opus 4.6이 특정 루브릭에 따라 0-10점으로 채점합니다:

  • 코딩(4개 테스트): Docker Compose, systemd 서비스, Python 스크립트, 코드 리뷰
  • 홈랩 운영(6개 테스트): 메모리 분석, OOM 디버깅, 디스크 트라이아지, 네트워크 디버그, 로그 파싱
  • 도구 호출(5개 테스트): Proxmox pct/qm 명령, SSH 체인, Docker 작업, git 워크플로우
  • 음식/식사 계획(6개 테스트): JSON 식사 계획, 준비 일정, 레시피 스케일링, 쇼핑 목록, 영양
  • 재무(5개 테스트): 세금 계산, 포트폴리오 분석, FIRE 예측, 세금 손실 수확
  • 이메일 분류(3개 테스트): 범주 할당, 모호한 사례, 구독 취소 결정
  • 홈어시스턴트(3개 테스트): 자동화 YAML, 템플릿 센서, 조건
  • 수학(4개 테스트): 모기지 상환, 확률, 정수론, 세금 최적화
  • 추론(3개 테스트): 에너지 요금, 통계, 논리 제약
  • 지시 따르기(3개 테스트): 형식 준수, JSON 출력, 부정적 제약
  • 긴 컨텍스트(1개 테스트): 8K 토큰 인프라 문서에서 사실 추출
  • 속도(2개 테스트): 첫 토큰까지 시간, 지속적 생성

개발자의 가장 일반적인 사용 사례를 위해 9개 테스트가 '중요' 항목으로 2배 가중치가 부여되며, 최대 가능 점수는 540점입니다.

Ad

테스트 방법론

각 테스트에는 좋은 답변을 구성하는 요소를 정의하는 특정 루브릭이 있습니다. 예를 들어, 메모리 분석 테스트는 '사용 가능한' 메모리(22G)가 '여유' 메모리(5.7G)가 아닌 실제 여유 메트릭이며, 스왑 사용량이 비중요하다는 것을 올바르게 식별해야 합니다. 세금 계산 테스트는 올바른 AGI, 과세 소득 및 세율 계산을 확인합니다. 모든 원시 응답과 루브릭은 교차 검증을 위해 저장됩니다.

테스트된 모델

개발자는 Vulkan과 llama-server를 사용하여 6개 계열의 19개 모델 구성을 테스트했으며, 그중에는 다음이 포함됩니다:

  • Qwen 계열: Qwen3.5-122B-A10B(10B 활성 MoE) - 이전에 프로덕션에서 사용됨, Qwen3-Coder-Next 80B-A3B(3B 활성)
  • Gemma 4 26B-A4B - 처음에는 고장난 것처럼 보이게 만든 두 가지 별도의 버그를 수정한 후 최상위에 위치함

개발자는 이것이 엄격한 학술적 방법론이 아니라 특정 홈랩 작업에 가장 적합한 모델을 결정하기 위한 실용적인 테스트라고 언급합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClaw 에이전트, LLM 큐레이션으로 AI 뉴스 파이프라인 자동화
Use Cases

OpenClaw 에이전트, LLM 큐레이션으로 AI 뉴스 파이프라인 자동화

OpenClaw 에이전트는 25개의 RSS 피드, 13개의 Reddit 서브레딧, Twitter, GitHub 및 웹 검색을 스캔한 다음 편집 큐레이션에는 Gemini Flash를, 글 작성에는 Claude Sonnet을 사용하는 완전 자동화된 AI 뉴스 파이프라인을 실행합니다. 이 시스템은 월 약 5달러의 비용이 들며 Telegram 채널에 게시합니다.

OpenClawRadar
개발자의 2,500 Opus 토큰 소각: 실제 작업 흐름 대 도구
Use Cases

개발자의 2,500 Opus 토큰 소각: 실제 작업 흐름 대 도구

한 소프트웨어 샵 소유주가 OpenClaw를 통해 Opus 토큰에 2,500달러를 지출한 경험을 이야기하며, 버그 수정, 시각적 자동화, 서버 관리에 사용했지만 '워크플로'가 실제로 무엇을 의미하는지 의문을 제기합니다.

OpenClawRadar
AI 유튜브 크리에이터, 수익 창출 및 작업 흐름 변화 보고
Use Cases

AI 유튜브 크리에이터, 수익 창출 및 작업 흐름 변화 보고

Claude Opus 4.6를 스크립팅에 사용하는 한 개발자가 AI 생성 YouTube 채널에서 28,400회 조회수로 12.20달러를 벌었다고 보고하며, 이에 따라 비즈니스를 위한 프리랜서 콘텐츠 제작으로 전환을 선언했습니다.

OpenClawRadar
클로드 시니어 개발자와 함께하는 생성형 컬러링북 앱 만들기
Use Cases

클로드 시니어 개발자와 함께하는 생성형 컬러링북 앱 만들기

중급 iOS 개발자가 Claude를 사용해 SwiftUI로 만든 어린이용 컬러링북 앱에서 엣지 케이스를 발견하고 안전 가드레일을 구현한 방법을 자세히 설명합니다.

OpenClawRadar