MTP 수용률 50% 임계값: Gemma-4 26B 추론적 디코딩 성능 결정

한 Reddit 사용자가 mlx-vlm을 사용해 Gemma-4(26B, 4비트)에서 MTP(다중 토큰 예측)를 테스트한 결과, 성능이 전적으로 초안 토큰 수락률에 달려 있음을 발견했습니다. M4 Max Studio에서의 측정은 구체적인 임계값을 보여줍니다.

작업별 결과

코드 생성: 75 tok/s → 114.8 tok/s (1.53배 빠름) — 수락률: 슬롯의 66%
장문 산문: 75 tok/s → 71.1 tok/s (0.95배, 실질적으로 차이 없음) — 수락률: 슬롯의 31%
JSON 출력: 51.3 tok/s → 25.6 tok/s (0.50배 느림) — 수락률: 슬롯의 8%

임계값은 약 50% 수락률로 보입니다. 그 아래에서는 추론적 디코딩 오버헤드가 이득을 상쇄합니다.

테스트 세부사항: 코드는 "X를 수행하는 파이썬 함수 작성", 장문 산문은 "당나라 시대 화폐에 관한 800단어 에세이 작성", JSON 출력은 항목을 유사성에 따라 그룹화하여 구조화된 출력을 생성하는 것이었습니다.

보너스 팁: 사용자는 Gemma의 JSON 구조 지시사항 준수 능력이 괜찮지만, 구조화된 출력(json_schema)을 활성화하면 약 20%의 오버헤드가 추가된다고 언급합니다. 약간 엉성한 JSON을 허용하고 런타임에 수정하는 것을 권장합니다. mlx-vlm은 어차피 스펙디코딩에서 json_schema를 지원하지 않습니다.

결론: MTP는 로컬 코딩에 유용하지만, 수락률이 낮은 구조화된 작업이나 산문 작업에서는 성능을 저하시킬 수 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

MTP 수용률: 50% 임계값이 투기적 디코딩 이점을 결정한다

작업별 결과

👀 See Also

레딧 사용자의 Claude Code 사용을 위한 10가지 실용적인 팁

CLAUDE.md를 사용해 Claude AI 세션 간 프로젝트 규칙 유지하기

클로드 프로젝트 지침이 주입되는 방식 — 그리고 대화 중간에 변경하면 기록이 깨지는 이유

돈을 낭비하고 보안 위험을 초래하는 다섯 가지 일반적인 OpenClaw 설정 실수