MLX 추론 성능 2026: Qwen3.5 초당 71.8 토큰 벤치마크

M2 Ultra에서의 성능 벤치마크

이 벤치마크는 128GB 통합 메모리를 탑재한 Mac Studio M2 Ultra에서 MLX 추론을 측정한 것으로, 코딩 에이전트 작업 부하를 위해 대형 모델을 로컬에서 실행했습니다. 생성 속도는 네 가지 모델에 대해 다양한 KV 캐시 깊이(실행당 256 출력 토큰)에서 토큰/초 단위의 디코드 처리량으로 측정되었습니다.

모델 성능 데이터

Qwen3.5-27B (dense, 8-bit): 4K에서 20.2 토큰/초, 64K에서 16.4 토큰/초, 128K에서 13.1 토큰/초
Qwen3.5-35B-A3B (MoE, 8-bit): 4K에서 71.8 토큰/초, 64K에서 53.5 토큰/초, 128K에서 41.9 토큰/초
Nemotron Super 120B (5-bit): 4K에서 36.4 토큰/초, 64K에서 31.2 토큰/초, 128K에서 28.4 토큰/초
Qwen3.5-122B-A10B (MoE, 5-bit): 4K에서 40.6 토큰/초, 64K에서 29.4 토큰/초, 128K에서 23.1 토큰/초

35B MoE 모델은 35B 매개변수 중 토큰당 3B만 활성화되기 때문에 높은 처리량을 달성합니다. Nemotron Super 120B는 컨텍스트에 따른 성능 저하가 최소화되어 있는데(4K에서 64K로 14% 감소), 이는 88개 레이어 중 80개가 토큰당 일정한 비용을 가지는 Mamba-2를 사용하기 때문입니다.

기능별 속도 향상

Multi-Token Prediction (MTP): Qwen 3.5 모델들은 다음 토큰을 병렬로 예측하는 내장 드래프트 헤드를 가지고 있습니다. 90%의 확률적 수용률로, 122B 모델은 약 17 토큰/초에서 38.8 토큰/초로 향상됩니다(2.3배 속도 향상). 서버 오버헤드는 최소화되어 있습니다: vllm-mlx를 통한 짧은 프롬프트 요청은 39 토큰/초로 생성되어 기준치와 일치합니다.

SpecPrefill: 긴 프롬프트의 경우, 2B 드래프트 모델이 어텐션을 통해 토큰 중요도를 평가한 후, 대상 모델이 상위 20%만 프리필합니다. 128K 컨텍스트에서 122B 모델의 경우, 첫 번째 토큰까지의 시간(TTFT)이 19.3분에서 3.5분으로 감소합니다(5.5배 속도 향상). 이 기능은 8K 토큰 이상의 프롬프트에만 활성화됩니다.

MLX 대 llama.cpp 비교

Qwen3.5-35B-A3B를 두 스택에서 벤치마킹(KV 캐시 채운 후 512 토큰 생성):

32K 컨텍스트: MLX 8-bit: 60.8 토큰/초, llama.cpp FA ON (5-bit): 54.85 토큰/초, llama.cpp FA OFF: 36.45 토큰/초
64K 컨텍스트: MLX 8-bit: 53.2 토큰/초, llama.cpp FA ON (5-bit): 45.84 토큰/초, llama.cpp FA OFF: 24.47 토큰/초
128K 컨텍스트: MLX 8-bit: 42.7 토큰/초, llama.cpp FA ON (5-bit): 34.48 토큰/초, llama.cpp FA OFF: 13.73 토큰/초

MLX는 128K 컨텍스트에서 최대 1024개의 스레드 그룹을 디스패치하는 2-패스 분할-K 디코드 커널(sdpa_vector_2pass)을 사용합니다. 이 비교는 MLX가 긴 컨텍스트 길이에서 llama.cpp와 경쟁력을 가짐을 보여줍니다.

하이브리드 아키텍처 영향

테스트된 모델들은 더 적은 어텐션 레이어를 사용하는 하이브리드 아키텍처를 사용합니다:

Qwen3.5-35B-A3B: 25% 어텐션 레이어(40개 중 10개), 4K에서 71.8 토큰/초, 64K에서 -25% 감소
Nemotron Super 120B: 9% 어텐션 레이어(88개 중 8개), 4K에서 36.4 토큰/초, 64K에서 -14% 감소

Qwen 3.5는 네트워크의 대부분에 GatedDeltaNet 레이어(선형 회귀)를 사용하고, 표준 어텐션은 레이어의 25%에만 적용합니다. 더 적은 어텐션 레이어는 토큰당 스캔할 KV 캐시가 적고, 긴 컨텍스트에서의 성능 저하가 적음을 의미합니다.

최근 개선 사항

MLX 생태계는 빠른 발전을 보인 세 가지 계층을 가지고 있습니다. MLX 코어는 스레드 안전성 개편(스레드당 M... [원문 잘림]. 연속 배칭과 프리픽스 캐시와 결합하여, 122B 모델은 이전에는 비현실적이었던 컨텍스트 길이에서 코딩 에이전트를 인터랙티브하게 서비스할 수 있게 되었습니다.

📖 Read the full source: r/LocalLLaMA