애플 실리콘 벤치마크: 비전 LLM 분류를 위한 M3, M4, M5 Max에서의 Qwen3-VL 성능

벤치마크 설정 및 하드웨어
기술 도면(다양한 메가픽셀 해상도의 PDF)에 대해 비전 LLM 분류 파이프라인을 테스트했습니다. LM Studio와 MLX 백엔드를 사용했으며, 스트리밍이 활성화되었고, 동일한 53개 파일 테스트 데이터셋과 동일한 프롬프트를 적용했습니다. 이 작업은 모델이 이미지를 분석하고 짧은 구조화된 JSON 응답(~300-400 토큰)을 반환하는 분류 작업으로, 추론은 최소한의 토큰 생성과 함께 프리필이 지배적으로 이루어집니다.
테스트된 하드웨어:
- M3 Max: 40 GPU 코어, 48 GB RAM, 400 GB/s 메모리 대역폭
- M4 Max Studio: 40 GPU 코어, 64 GB RAM, 546 GB/s 메모리 대역폭
- M5 Max: 40 GPU 코어, 64 GB RAM, 614 GB/s 메모리 대역폭
테스트된 모델
- Qwen3-VL 8B: 8B 매개변수, 4비트 MLX 양자화, 디스크 상 ~5.8 GB
- Qwen3.5 9B: 9B 매개변수 (밀집, 하이브리드 어텐션), 4비트 MLX 양자화, 디스크 상 ~6.2 GB
- Qwen3-VL 32B: 32B 매개변수, 4비트 MLX 양자화, 디스크 상 ~18 GB
8B 모델 결과
Qwen3-VL 8B (4비트)의 이미지당 총 시간:
- 4 MP: M3 Max 48GB: 16.5초, M4 Studio 64GB: 15.8초, M5 Max 64GB: 9.0초 (M5는 M3보다 83% 빠름)
- 5 MP: M3 Max: 20.3초, M4 Studio: 19.8초, M5 Max: 11.5초 (77% 빠름)
- 6 MP: M3 Max: 24.1초, M4 Studio: 24.4초, M5 Max: 14.0초 (72% 빠름)
- 7.5 MP: M4 Studio: 32.7초, M5 Max: 20.3초
M3 Max와 M4 Studio는 8B 모델에서 기본적으로 동일한 성능을 보이며, M4가 37% 더 많은 메모리 대역폭을 가짐에도 불구하고 총 추론 시간은 3-5% 내에 있습니다. M5 Max는 둘보다 약 75-83% 더 빠릅니다.
M3와 M4가 유사한 속도를 보이는 이유
프리필(프롬프트 처리)은 메모리 대역폭이 아닌 GPU 컴퓨팅 코어 수에 따라 확장됩니다. 두 칩 모두 40개의 GPU 코어를 가지고 있으므로 프리필 속도는 동일합니다. 비전 모델의 경우 프리필이 지배적입니다: TTFT(첫 번째 토큰까지의 시간)는 총 추론 시간의 70-85%를 차지하는데, 이는 비전 인코더가 이미지당 많은 컴퓨팅 작업을 수행하기 때문입니다.
M4는 토큰 생성에서 대역폭 이점을 보입니다: 76-80 T/s 대 M3의 60-64 T/s (25% 더 빠름), 이는 37%의 대역폭 차이(546 대 400 GB/s)와 일치합니다. 그러나 짧은 출력(~300-400 토큰)이 있는 분류 작업의 경우 생성은 총 시간의 약 15%에 불과하므로, 25%의 생성 속도 이점은 최종적으로 단 3-5%의 개선으로 이어집니다.
32B 모델 결과
Qwen3-VL 32B (4비트)의 이미지당 총 시간:
- 2 MP: M3 Max 48GB: 47.6초, M4 Studio 64GB: 35.3초, M5 Max 64GB: 21.2초
- 4 MP: M3 Max: 63.2초, M4 Studio: 50.0초, M5 Max: 27.4초
- 5 MP: M3 Max: 72.9초, M4 Studio: 59.2초, M5 Max: 30.7초
- 6 MP: M3 Max: 85.3초, M4 Studio: 78.0초, M5 Max: 35.6초
요약, 설명 또는 코드 생성과 같은 더 긴 생성 작업의 경우 M4의 대역폭 이점은 이 분류 작업보다 더 중요할 것입니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

움직이는 기계의 역동적인 세계 탐험하기
기술 커뮤니티의 최신 논의에서 AI 기반 코딩 에이전트가 산업을 어떻게 변화시키는지 알아보세요. OpenClawRadar의 통찰을 통해 이 진화하는 기술의 핵심 측면을 강조합니다.

클로드 AI, 기업 맞춤형 및 새로운 커넥터를 갖춘 Cowork 플러그인 업데이트 소개
클로드 AI가 Cowork 플러그인 업데이트를 발표하여 기업 관리자가 개인 플러그인 마켓플레이스를 생성하고 Google Workspace, Docusign, Apollo 등 다양한 도구에 대한 커넥터를 추가할 수 있게 되었습니다. 새로운 연구 프리뷰 기능을 통해 클로드가 Excel과 PowerPoint를 넘나들며 종단간 분석과 프레젠테이션 제작을 수행할 수 있습니다.

Anthropic은 오픈소스 유지보수자들을 위해 무료 Claude Max 20x를 제공합니다.
Anthropic의 Claude for Open Source 프로그램은 적격한 오픈소스 메인테이너와 기여자에게 6개월간 무료 Claude Max 20x를 제공합니다. 최대 10,000명의 기여자를 대상으로 순차적으로 신청서를 검토합니다.

OneUptime이 단일 커밋으로 12,000개의 AI 생성 블로그 게시물을 추가합니다
OneUptime의 블로그 저장소가 단일 커밋으로 ClickHouse, Redis, MongoDB, MySQL 및 기타 기술을 다루는 12,000개의 AI 생성 게시물을 추가했으며, 5,012개의 파일과 100만 줄 이상의 코드를 변경했습니다.