Qwen3-VL 벤치마크: M3 vs M4 vs M5 Max 성능 비교

벤치마크 설정 및 하드웨어

기술 도면(다양한 메가픽셀 해상도의 PDF)에 대해 비전 LLM 분류 파이프라인을 테스트했습니다. LM Studio와 MLX 백엔드를 사용했으며, 스트리밍이 활성화되었고, 동일한 53개 파일 테스트 데이터셋과 동일한 프롬프트를 적용했습니다. 이 작업은 모델이 이미지를 분석하고 짧은 구조화된 JSON 응답(~300-400 토큰)을 반환하는 분류 작업으로, 추론은 최소한의 토큰 생성과 함께 프리필이 지배적으로 이루어집니다.

테스트된 하드웨어:

M3 Max: 40 GPU 코어, 48 GB RAM, 400 GB/s 메모리 대역폭
M4 Max Studio: 40 GPU 코어, 64 GB RAM, 546 GB/s 메모리 대역폭
M5 Max: 40 GPU 코어, 64 GB RAM, 614 GB/s 메모리 대역폭

테스트된 모델

Qwen3-VL 8B: 8B 매개변수, 4비트 MLX 양자화, 디스크 상 ~5.8 GB
Qwen3.5 9B: 9B 매개변수 (밀집, 하이브리드 어텐션), 4비트 MLX 양자화, 디스크 상 ~6.2 GB
Qwen3-VL 32B: 32B 매개변수, 4비트 MLX 양자화, 디스크 상 ~18 GB

8B 모델 결과

Qwen3-VL 8B (4비트)의 이미지당 총 시간:

4 MP: M3 Max 48GB: 16.5초, M4 Studio 64GB: 15.8초, M5 Max 64GB: 9.0초 (M5는 M3보다 83% 빠름)
5 MP: M3 Max: 20.3초, M4 Studio: 19.8초, M5 Max: 11.5초 (77% 빠름)
6 MP: M3 Max: 24.1초, M4 Studio: 24.4초, M5 Max: 14.0초 (72% 빠름)
7.5 MP: M4 Studio: 32.7초, M5 Max: 20.3초

M3 Max와 M4 Studio는 8B 모델에서 기본적으로 동일한 성능을 보이며, M4가 37% 더 많은 메모리 대역폭을 가짐에도 불구하고 총 추론 시간은 3-5% 내에 있습니다. M5 Max는 둘보다 약 75-83% 더 빠릅니다.

M3와 M4가 유사한 속도를 보이는 이유

프리필(프롬프트 처리)은 메모리 대역폭이 아닌 GPU 컴퓨팅 코어 수에 따라 확장됩니다. 두 칩 모두 40개의 GPU 코어를 가지고 있으므로 프리필 속도는 동일합니다. 비전 모델의 경우 프리필이 지배적입니다: TTFT(첫 번째 토큰까지의 시간)는 총 추론 시간의 70-85%를 차지하는데, 이는 비전 인코더가 이미지당 많은 컴퓨팅 작업을 수행하기 때문입니다.

M4는 토큰 생성에서 대역폭 이점을 보입니다: 76-80 T/s 대 M3의 60-64 T/s (25% 더 빠름), 이는 37%의 대역폭 차이(546 대 400 GB/s)와 일치합니다. 그러나 짧은 출력(~300-400 토큰)이 있는 분류 작업의 경우 생성은 총 시간의 약 15%에 불과하므로, 25%의 생성 속도 이점은 최종적으로 단 3-5%의 개선으로 이어집니다.