MTPLX: 네이티브 MTP 헤드를 사용한 Apple Silicon에서 2.24배 더 빠른 토큰

✍️ OpenClawRadar📅 게시일: May 5, 2026🔗 Source
MTPLX: 네이티브 MTP 헤드를 사용한 Apple Silicon에서 2.24배 더 빠른 토큰
Ad

MTPLX는 Apple Silicon용 추론 엔진으로, 모델에 내장된 다중 토큰 예측(MTP) 헤드를 추측 드래프터로 활용합니다. 핵심 결과: Qwen 3.6 27B 4비트 MLX가 MacBook Pro M5 Max에서 온도 0.6, top_p 0.95, top_k 20 설정(코딩에 권장되는 Qwen의 정확한 설정)으로 28 tok/s에서 63 tok/s로 2.24배 빨라졌습니다.

작동 방식

DFlash나 DDTree와 달리(외부 드래프터 모델이 필요하고 그리디 전용), MTPLX는 모델 자체의 MTP 헤드를 사용합니다. 각 MTP 헤드는 순차적으로 드래프팅하여 토큰별 확률 분포를 생성합니다. 이를 통해 온도와 잔차 보정을 사용한 정확한 리젝션 샘플링이 가능합니다. 외부 드래프터가 없으므로 추가 메모리 사용이 없습니다.

Qwen 3.6 27B(깊이 5까지 MTP 헤드 탑재)의 경우 D2~D5를 스위핑한 결과 최적 깊이는 D3로 나타났습니다. 더 깊은 깊이(D4/D5)는 초기 수용률이 좋았지만 깊은 위치에서 검증 시간이 절약된 토큰보다 더 많이 소요되었습니다.

DFlash / DDTree와의 비교

DFlash MLX는 더 높은 원시 속도를 달성하지만 그리디(온도 0) 샘플링으로 제한되어 실사용에 심각한 제약이 있습니다. DDTree도 동일한 한계를 물려받습니다. 둘 다 외부 드래프터가 필요합니다. MTPLX는 MTP 헤드를 유지하는 모든 모델에서 작동하며 전체 온도 샘플링 추론을 지원합니다.

Ad

설치 및 사용법

MTPLX는 다음 명령어를 포함한 완전한 CLI로 제공됩니다:

  • mtplx start wizard — 안내 설정
  • 모델 다운로드 및 검사 (4단계 MTP 호환성 감지)
  • 구성 가능한 깊이 2~7+
  • OpenAI/Anthropic 호환 API 서버, 브라우저 채팅 UI, 터미널 채팅
  • 벤치마크 스위트, 건강 진단, 크래시 방지 팬 제어 (유휴 인식 자동 복원)
  • 562개 테스트 스위트 포함

엔진은 패치된 MLX 포크 위에 구축되었으며, 커스텀 Metal 커널, 컴파일된 검증 그래프, 혁신 테이프 GDN 롤백, 드래프트 전용 재양자화 LM 헤드를 포함합니다.

대상 사용자

Apple Silicon에서 로컬 LLM을 실행하며, 출력 품질을 희생하지 않고 고처리량, 온도 샘플링 추론이 필요한 개발자(코딩 또는 창작 글쓰기용).

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also