M5 Max Flash-MOE 벤치마크: Qwen3.5-397B 초당 12.99 토큰

성능 결과

한 사용자가 128GB 통합 메모리를 탑재한 M5 Max MacBook Pro에서 flash-moe 구현을 벤치마크했으며, mlx-community/Qwen3.5-397B-A17B-4bit 모델을 실행했습니다. Dan Woods가 48GB RAM을 탑재한 M3 Max에서 수행한 원본 벤치마크는 초당 4.36 토큰을 달성했습니다. M5 Max에서는 4비트 양자화와 cache-io-split 없이 기본 설정으로 초당 12.48 토큰에 도달했습니다. 최적의 --cache-io-split 4 설정으로 성능이 초당 12.99 토큰으로 향상되어 원본 벤치마크보다 세 배 빠른 속도를 보였습니다.

Cache-IO-Split 분석

사용자는 M5+ 칩을 위한 Metal 4 NAX 지원을 추가한 Anemll 포크의 flash-moe를 사용하여 cache-io-split 값을 완전히 검증했습니다. 결과에 따르면 split 2와 3은 성능을 저하시키는 반면, split 4가 최적의 성능을 제공합니다:

cache-io-split 1 (없음): 12.48 tok/s, 토큰당 28.4ms 전문가 I/O
cache-io-split 2: 9.94 tok/s, 토큰당 28.2ms 전문가 I/O
cache-io-split 3: 9.99 tok/s, 토큰당 36.1ms 전문가 I/O
cache-io-split 4: 12.99 tok/s, 토큰당 25.9ms 전문가 I/O
cache-io-split 5: 12.64 tok/s, 토큰당 27.5ms 전문가 I/O
cache-io-split 8: 12.90 tok/s, 토큰당 26.4ms 전문가 I/O

분석에 따르면 split 4는 M5 Max SSD 컨트롤러의 내부 병렬 처리와 일치하는 반면, 더 높은 값은 스케줄링 오버헤드를 추가합니다. 권장 사항은 --cache-io-split 4를 사용하거나 아예 split을 사용하지 않으면서 split 2와 3은 피하는 것입니다.

양자화 비교

2비트 대 4비트 양자화 테스트 결과, M5 Max에서는 2비트가 속도 이점을 제공하지 않으며, SSD 속도로 인해 더 작은 파일이 필요하지 않고 디양자화 오버헤드가 모든 이득을 상쇄합니다. 2비트에서는 품질이 크게 저하됩니다:

4비트: 12.99 tok/s, WikiText-2에서 3.64 퍼플렉시티
2비트: ~12.65 tok/s, WikiText-2에서 5.71 퍼플렉시티 (57% 더 나쁨)

결론은 속도를 희생하지 않고 더 나은 품질을 위해 4비트 양자화를 사용하는 것입니다.

기술적 세부사항

벤치마크는 https://github.com/Anemll/flash-moe에서 사용 가능한 Anemll 포크를 사용했습니다. 지속적인 성능은 1000 토큰 동안 초당 11.23 토큰으로 안정적으로 유지되었으며 성능 저하는 없었습니다. 사용자는 LM Studio와 같은 Metal/GPU를 사용하는 백그라운드 프로세스가 성능에 상당한 영향을 미칠 수 있으므로 벤치마크 중에는 종료해야 한다고 언급했습니다.

📖 Read the full source: r/LocalLLaMA