RTX 5080 Qwen3.6 35B MoE 벤치마크: 128k에서 56 tok/s, MTP는 비추

메인라인 llama.cpp 커밋 b9190이 MTP(멀티 토큰 예측)를 병합했습니다. RTX 5080 16GB에서 Qwen3.6 35B MoE를 128k 컨텍스트로 실행한 벤치마크 결과, 명확한 사실이 드러났습니다: 모델이 GPU에 완전히 맞지 않을 때 MTP는 성능을 저하시킵니다.

최적 설정 (MTP 없음)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536를 131k 컨텍스트에서 실행하면:

초당 56토큰 생성
128k 컨텍스트에서 초당 1,584토큰 프롬프트 처리

MTP 플래그는 필요하지 않습니다.

MTP가 16GB에서 35B MoE를 느리게 하는 이유

코딩 에이전트 컨텍스트 길이에서 세 가지 설정을 테스트했습니다:

27B IQ3+MTP: 12.45 GB, GPU에 완전 탑재 — 평균 73 tok/s (MTP 도움)
35B Q4_K_XL+MTP: ~22 GB, 부분 오프로드 — 평균 74 tok/s (MTP 해로움)
35B Q8_0+MTP: ~36 GB, 대량 오프로드 — 평균 46 tok/s

MTP 없이 35B Q4_K_XL은 --fit-target 0에서 97 tok/s (15,815 MiB VRAM) 및 --fit-target 1536에서 86 tok/s (14,269 MiB)를 달성합니다. --fit-target 1536에서 MTP를 활성화하면 속도가 74 tok/s (14,623 MiB)로 떨어지며 — 23% 성능 저하입니다.

근본 원인: MTP의 계산 버퍼가 약 1.5 GB를 예약하여 (--fit-target 1536), 약 3개의 MoE 전문가 레이어를 GPU에서 CPU로 밀어냅니다. MoE 추론은 CPU 바운드 전문가 레이어에 의해 병목이 발생하므로, MTP의 79% 토큰 수락률이 느린 단계별 속도를 보상할 수 없습니다.

27B 모델(GPU에 완전히 맞는 경우)의 경우 --fit-target 0이 MTP 유무와 관계없이 작동하므로 VRAM 패널티가 없으며, MTP가 속도를 ~56에서 73 tok/s로 높입니다.

경험 법칙

MTP는 모델이 GPU에 맞을 때 도움이 됩니다. MTP 계산 버퍼가 더 많은 레이어를 CPU로 강제할 때 해롭습니다. 16GB 카드와 35B MoE에서는 MTP를 건너뛰세요.

전체 테스트 시스템: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (메인라인). 일반적인 MTP 플래그: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 전체 소스 읽기: r/LocalLLaMA

RTX 5080 16GB: Qwen3.6 35B MoE, 128k 컨텍스트에서 56 tok/s, 그리고 MTP가 도움이 되지 않는 이유

최적 설정 (MTP 없음)

MTP가 16GB에서 35B MoE를 느리게 하는 이유

경험 법칙

👀 See Also

클로드 AI, 기업 맞춤형 및 새로운 커넥터를 갖춘 Cowork 플러그인 업데이트 소개

Claude-Code v2.1.79는 원격 제어 기능을 추가하고, 서브프로세스 중단 문제를 수정하며, 메모리 사용량을 개선했습니다.

AI 좀비화된 대학들: 엘리트 대학에서의 LLM 치팅 현장 보고

Godot, AI 생성 코드 기여 금지: "AI 중과사용자 신뢰할 수 없어"