oMLX에서 Qwen 모델에 대한 M5 Max 대 M3 Max 추론 벤치마크

✍️ OpenClawRadar📅 게시일: March 28, 2026🔗 Source
oMLX에서 Qwen 모델에 대한 M5 Max 대 M3 Max 추론 벤치마크
Ad

Reddit 사용자 /u/onil_gova는 40개의 GPU 코어와 128GB 통합 메모리를 탑재한 M5 Max와 M3 Max 프로세서가 장착된 16인치 MacBook Pro를 비교하는 추론 벤치마크를 실행했습니다. 테스트에는 oMLX v0.2.23과 세 가지 Qwen 3.5 모델(122B-A10B MoE, 35B-A3B MoE, 27B dense)이 사용되었습니다.

벤치마크 결과

pp1024/tg128(프롬프트 처리 길이 1024, 토큰 생성 길이 128)에서 M5 Max는 상당한 속도 향상을 보였습니다:

  • 35B-A3B MoE: 134.5 vs 80.3 tg tok/s (1.7배 더 빠름)
  • 122B-A10B MoE: 65.3 vs 46.1 tg tok/s (1.4배 더 빠름)
  • 27B dense: 32.8 vs 23.0 tg tok/s (1.4배 더 빠름)

성능 차이는 더 긴 컨텍스트에서 더 커집니다. 65K 컨텍스트 길이에서 27B dense 모델은 M3 Max에서 6.8 tg tok/s, M5 Max에서 19.6 tg tok/s로 떨어졌습니다(2.9배 차이).

Ad

프리필 및 배칭 성능

프리필 이점은 더 컸으며, 긴 컨텍스트 길이에서 M5 Max가 최대 4배 더 빠른 속도를 보였는데, 이는 M5 Max의 GPU 신경 가속기 덕분입니다.

에이전트 작업 부하에 대한 배칭 성능은 중요한 차이를 보였습니다:

  • M5 Max는 35B-A3B 모델에서 4배 배치 크기에서 2.54배 처리량으로 확장됨
  • M3 Max의 dense 모델 배칭은 성능 저하를 초래함(122B 모델에서 2배 배치 시 0.80배)

대역폭 차이(M5 Max 614 GB/s vs M3 Max 400 GB/s)는 다단계 에이전트 루프나 병렬 도구 호출에 중요합니다.

MoE 효율성 통찰

벤치마크는 122B 모델(활성 매개변수 10B)이 두 기기에서 27B dense 모델보다 더 빠르게 생성한다는 것을 보여주었습니다. 이는 총 모델 크기가 아닌 활성 매개변수 수가 추론 속도를 결정한다는 것을 입증합니다.

모든 차트와 데이터가 포함된 전체 상호작용 분석은 다음에서 확인할 수 있습니다: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

AWS Bedrock, 클로드 오퍼스 4.7 할당량을 조용히 제거: 프로덕션 AI 워크플로우에 대한 경고
News

AWS Bedrock, 클로드 오퍼스 4.7 할당량을 조용히 제거: 프로덕션 AI 워크플로우에 대한 경고

한 HN 사용자가 AWS Bedrock이 경고 없이 Claude Opus 4.7 할당량을 0으로 설정했다고 보고했습니다. AWS 지원팀은 시스템 업데이트 때문이며 복원을 보장할 수 없다고 확인했습니다. 사용자들은 Opus 4.6으로 마이그레이션하거나 제공자를 전환하라는 조언을 받고 있습니다.

OpenClawRadar
클로드 소넷 4.6 공개: 향상된 코딩 및 컴퓨터 사용 능력
News

클로드 소넷 4.6 공개: 향상된 코딩 및 컴퓨터 사용 능력

클로드 소넷 4.6은 100만 토큰 컨텍스트 창을 도입하고 코딩 및 컴퓨터 사용 능력을 향상시켜, 더 넓은 범위의 작업에 대해 오푸스급 모델에 대한 강력한 대안이 되었습니다.

OpenClawRadar
남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직
News

남아프리카 공화국 내무부 공무원 2명, 정책 보고서 AI 환각 문제로 정직

남아프리카공화국 내무부는 시민권, 이민, 난민 보호에 관한 개정 백서의 참고문헌 목록에서 AI 환각 현상이 발견된 후 두 명의 관리를 정직했습니다. 부서는 AI 검사를 시행하고 2022년 11월 이후의 모든 정책 문서를 검토할 예정입니다.

OpenClawRadar
러버블이 국제 여성의 날을 기념하여 100달러 상당의 클로드 API 크레딧을 무료로 제공합니다.
News

러버블이 국제 여성의 날을 기념하여 100달러 상당의 클로드 API 크레딧을 무료로 제공합니다.

러버블(Lovable)은 3월 8일까지 24시간 동안 플랫폼 무료 이용권과 함께 Anthropic Claude API 크레딧 100달러, Stripe 수수료 크레딧 250달러를 제공합니다. 사용자는 3월 9일 동부 표준시 기준 오전 12시 59분 이전에 이 혜택을 신청해야 합니다.

OpenClawRadar