MTP 수용률: 50% 임계값이 투기적 디코딩 이점을 결정한다

✍️ OpenClawRadar📅 게시일: May 9, 2026🔗 Source
MTP 수용률: 50% 임계값이 투기적 디코딩 이점을 결정한다
Ad

한 Reddit 사용자가 mlx-vlm을 사용해 Gemma-4(26B, 4비트)에서 MTP(다중 토큰 예측)를 테스트한 결과, 성능이 전적으로 초안 토큰 수락률에 달려 있음을 발견했습니다. M4 Max Studio에서의 측정은 구체적인 임계값을 보여줍니다.

작업별 결과

  • 코드 생성: 75 tok/s → 114.8 tok/s (1.53배 빠름) — 수락률: 슬롯의 66%
  • 장문 산문: 75 tok/s → 71.1 tok/s (0.95배, 실질적으로 차이 없음) — 수락률: 슬롯의 31%
  • JSON 출력: 51.3 tok/s → 25.6 tok/s (0.50배 느림) — 수락률: 슬롯의 8%

임계값은 약 50% 수락률로 보입니다. 그 아래에서는 추론적 디코딩 오버헤드가 이득을 상쇄합니다.

테스트 세부사항: 코드는 "X를 수행하는 파이썬 함수 작성", 장문 산문은 "당나라 시대 화폐에 관한 800단어 에세이 작성", JSON 출력은 항목을 유사성에 따라 그룹화하여 구조화된 출력을 생성하는 것이었습니다.

보너스 팁: 사용자는 Gemma의 JSON 구조 지시사항 준수 능력이 괜찮지만, 구조화된 출력(json_schema)을 활성화하면 약 20%의 오버헤드가 추가된다고 언급합니다. 약간 엉성한 JSON을 허용하고 런타임에 수정하는 것을 권장합니다. mlx-vlm은 어차피 스펙디코딩에서 json_schema를 지원하지 않습니다.

결론: MTP는 로컬 코딩에 유용하지만, 수락률이 낮은 구조화된 작업이나 산문 작업에서는 성능을 저하시킬 수 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

Claude Code 요금 절약: 계획 토큰을 저렴한 모델로 라우팅하기
Tips

Claude Code 요금 절약: 계획 토큰을 저렴한 모델로 라우팅하기

한 사용자가 Claude Code 워크플로우를 분할하여 초과 요금 약 40달러를 절약했습니다. 계획 단계는 Haiku 3.5로 보내고, 실제 편집과 의사 결정은 Opus/Sonnet에 남깁니다. 30줄짜리 래퍼가 라우팅을 처리하며, 설정에는 약 2시간이 걸렸습니다.

OpenClawRadar
🦀
Tips

Claude + MCP 브라우저: 사용자 보고 강화된 웹 접속

한 클로드 사용자가 MCP를 통해 클로드를 외부 브라우저에 연결함으로써 이전에는 접근할 수 없었던 사이트를 탐색할 수 있게 되었다고 설명하며, 클로드가 브라우저의 모델 토큰을 사용할 수 있을지 궁금해합니다.

OpenClawRadar
--ubatch-size 매개변수를 사용한 Llama.cpp 프롬프트 처리 속도 개선
Tips

--ubatch-size 매개변수를 사용한 Llama.cpp 프롬프트 처리 속도 개선

한 사용자가 Radeon 9070XT GPU의 L3 캐시 크기(64MB)에 맞춰 --ubatch-size를 설정하면 Llama.cpp에서 Qwen 27B와 같은 대형 모델의 프롬프트 처리 속도가 극적으로 향상되어 Claude 코드 호출이 사용 가능해진다는 사실을 발견했습니다.

OpenClawRadar
부정 프롬프팅은 약하다: 대신, 원하는 행동을 명확히 기술하라
Tips

부정 프롬프팅은 약하다: 대신, 원하는 행동을 명확히 기술하라

Reddit 분석에 따르면 클로드에게 "말을 줄여" 또는 "도덕적으로 말하지 마"라고 말하는 것은 거의 효과가 없습니다. 대신 "1-2문장으로 답해" 또는 "직접 답변하고, 주의사항은 선택사항으로 처리해"와 같은 긍정적인 지시를 사용하세요. 또한 "고마워!"로 끝맺으면 톤이 부드러워집니다.

OpenClawRadar