MTPLX: 네이티브 MTP 헤드를 사용한 Apple Silicon에서 2.24배 더 빠른 토큰

MTPLX는 Apple Silicon용 추론 엔진으로, 모델에 내장된 다중 토큰 예측(MTP) 헤드를 추측 드래프터로 활용합니다. 핵심 결과: Qwen 3.6 27B 4비트 MLX가 MacBook Pro M5 Max에서 온도 0.6, top_p 0.95, top_k 20 설정(코딩에 권장되는 Qwen의 정확한 설정)으로 28 tok/s에서 63 tok/s로 2.24배 빨라졌습니다.
작동 방식
DFlash나 DDTree와 달리(외부 드래프터 모델이 필요하고 그리디 전용), MTPLX는 모델 자체의 MTP 헤드를 사용합니다. 각 MTP 헤드는 순차적으로 드래프팅하여 토큰별 확률 분포를 생성합니다. 이를 통해 온도와 잔차 보정을 사용한 정확한 리젝션 샘플링이 가능합니다. 외부 드래프터가 없으므로 추가 메모리 사용이 없습니다.
Qwen 3.6 27B(깊이 5까지 MTP 헤드 탑재)의 경우 D2~D5를 스위핑한 결과 최적 깊이는 D3로 나타났습니다. 더 깊은 깊이(D4/D5)는 초기 수용률이 좋았지만 깊은 위치에서 검증 시간이 절약된 토큰보다 더 많이 소요되었습니다.
DFlash / DDTree와의 비교
DFlash MLX는 더 높은 원시 속도를 달성하지만 그리디(온도 0) 샘플링으로 제한되어 실사용에 심각한 제약이 있습니다. DDTree도 동일한 한계를 물려받습니다. 둘 다 외부 드래프터가 필요합니다. MTPLX는 MTP 헤드를 유지하는 모든 모델에서 작동하며 전체 온도 샘플링 추론을 지원합니다.
설치 및 사용법
MTPLX는 다음 명령어를 포함한 완전한 CLI로 제공됩니다:
mtplx start wizard— 안내 설정- 모델 다운로드 및 검사 (4단계 MTP 호환성 감지)
- 구성 가능한 깊이 2~7+
- OpenAI/Anthropic 호환 API 서버, 브라우저 채팅 UI, 터미널 채팅
- 벤치마크 스위트, 건강 진단, 크래시 방지 팬 제어 (유휴 인식 자동 복원)
- 562개 테스트 스위트 포함
엔진은 패치된 MLX 포크 위에 구축되었으며, 커스텀 Metal 커널, 컴파일된 검증 그래프, 혁신 테이프 GDN 롤백, 드래프트 전용 재양자화 LM 헤드를 포함합니다.
대상 사용자
Apple Silicon에서 로컬 LLM을 실행하며, 출력 품질을 희생하지 않고 고처리량, 온도 샘플링 추론이 필요한 개발자(코딩 또는 창작 글쓰기용).
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

VPS에 OpenClaw를 원-커맨드 CLI로 배포하기
한 레딧 사용자가 단일 명령어로 4.99달러/월 VPS에 OpenClaw를 배포하는 CLI를 개발했다고 주장하며, Mac Mini 사용에 비해 비용 효율적인 대안을 제공합니다.

GitHub에 공유된 Claude Desktop용 맞춤형 Reddit MCP
한 개발자가 Claude Desktop과 Claude Code를 위해 맞춤 제작된 Reddit MCP를 공개했습니다. 이 도구는 Reddit 연구를 워크플로우에 직접 통합하도록 설계되었으며, GitHub에 문서화되어 무료로 사용할 수 있습니다.

HolyCode: 지속적인 Claude AI 코딩 환경을 위한 Docker 컨테이너
HolyCode는 머신 전환 및 재구축 시 AI 코딩 환경 상태를 유지하는 Docker 컨테이너입니다. 30개 이상의 사전 설치된 도구, Chromium + xvfb + Playwright를 통한 브라우저 자동화를 포함하며, ./data/opencode에 컨텍스트를 보존합니다.

실시간 데스크톱 오버레이로 Claude 코드 사용 제한 모니터링
오픈소스 데스크톱 오버레이가 Claude Code 사용량 제한을 실시간으로 표시하여 '/usage'를 반복해서 입력할 필요를 없앱니다.