MTPLX: Apple Silicon M5 Max에서 Qwen3.6-27B 2.24배 빠른 토큰

MTPLX는 Apple Silicon용 추론 엔진으로, 모델에 내장된 다중 토큰 예측(MTP) 헤드를 추측 드래프터로 활용합니다. 핵심 결과: Qwen 3.6 27B 4비트 MLX가 MacBook Pro M5 Max에서 온도 0.6, top_p 0.95, top_k 20 설정(코딩에 권장되는 Qwen의 정확한 설정)으로 28 tok/s에서 63 tok/s로 2.24배 빨라졌습니다.

작동 방식

DFlash나 DDTree와 달리(외부 드래프터 모델이 필요하고 그리디 전용), MTPLX는 모델 자체의 MTP 헤드를 사용합니다. 각 MTP 헤드는 순차적으로 드래프팅하여 토큰별 확률 분포를 생성합니다. 이를 통해 온도와 잔차 보정을 사용한 정확한 리젝션 샘플링이 가능합니다. 외부 드래프터가 없으므로 추가 메모리 사용이 없습니다.

Qwen 3.6 27B(깊이 5까지 MTP 헤드 탑재)의 경우 D2~D5를 스위핑한 결과 최적 깊이는 D3로 나타났습니다. 더 깊은 깊이(D4/D5)는 초기 수용률이 좋았지만 깊은 위치에서 검증 시간이 절약된 토큰보다 더 많이 소요되었습니다.

DFlash / DDTree와의 비교

DFlash MLX는 더 높은 원시 속도를 달성하지만 그리디(온도 0) 샘플링으로 제한되어 실사용에 심각한 제약이 있습니다. DDTree도 동일한 한계를 물려받습니다. 둘 다 외부 드래프터가 필요합니다. MTPLX는 MTP 헤드를 유지하는 모든 모델에서 작동하며 전체 온도 샘플링 추론을 지원합니다.