RTX 5080 16GB: Qwen3.6 35B MoE, 128k 컨텍스트에서 56 tok/s, 그리고 MTP가 도움이 되지 않는 이유

메인라인 llama.cpp 커밋 b9190이 MTP(멀티 토큰 예측)를 병합했습니다. RTX 5080 16GB에서 Qwen3.6 35B MoE를 128k 컨텍스트로 실행한 벤치마크 결과, 명확한 사실이 드러났습니다: 모델이 GPU에 완전히 맞지 않을 때 MTP는 성능을 저하시킵니다.
최적 설정 (MTP 없음)
Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536를 131k 컨텍스트에서 실행하면:
- 초당 56토큰 생성
- 128k 컨텍스트에서 초당 1,584토큰 프롬프트 처리
MTP 플래그는 필요하지 않습니다.
MTP가 16GB에서 35B MoE를 느리게 하는 이유
코딩 에이전트 컨텍스트 길이에서 세 가지 설정을 테스트했습니다:
- 27B IQ3+MTP: 12.45 GB, GPU에 완전 탑재 — 평균 73 tok/s (MTP 도움)
- 35B Q4_K_XL+MTP: ~22 GB, 부분 오프로드 — 평균 74 tok/s (MTP 해로움)
- 35B Q8_0+MTP: ~36 GB, 대량 오프로드 — 평균 46 tok/s
MTP 없이 35B Q4_K_XL은 --fit-target 0에서 97 tok/s (15,815 MiB VRAM) 및 --fit-target 1536에서 86 tok/s (14,269 MiB)를 달성합니다. --fit-target 1536에서 MTP를 활성화하면 속도가 74 tok/s (14,623 MiB)로 떨어지며 — 23% 성능 저하입니다.
근본 원인: MTP의 계산 버퍼가 약 1.5 GB를 예약하여 (--fit-target 1536), 약 3개의 MoE 전문가 레이어를 GPU에서 CPU로 밀어냅니다. MoE 추론은 CPU 바운드 전문가 레이어에 의해 병목이 발생하므로, MTP의 79% 토큰 수락률이 느린 단계별 속도를 보상할 수 없습니다.
27B 모델(GPU에 완전히 맞는 경우)의 경우 --fit-target 0이 MTP 유무와 관계없이 작동하므로 VRAM 패널티가 없으며, MTP가 속도를 ~56에서 73 tok/s로 높입니다.
경험 법칙
MTP는 모델이 GPU에 맞을 때 도움이 됩니다. MTP 계산 버퍼가 더 많은 레이어를 CPU로 강제할 때 해롭습니다. 16GB 카드와 35B MoE에서는 MTP를 건너뛰세요.
전체 테스트 시스템: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (메인라인). 일반적인 MTP 플래그: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

클로드 코드, 테라폼 상태 파일 오류로 프로덕션 데이터베이스 삭제
한 개발자가 Claude Code와 Terraform을 사용하여 AWS 인프라를 관리하는 과정에서 상태 파일 누락으로 인해 중복 리소스가 생성되었고, 이후 'destroy' 작업으로 데이터베이스 스냅샷을 포함한 2.5년간의 기록이 삭제된 사건이 발생했습니다.

Anthropic의 자연어 오토인코더가 클로드의 활성화를 읽기 쉬운 영어로 변환하는 방법
Anthropic이 클로드의 내부 활성화를 일반 텍스트 설명으로 변환하는 자연어 오토인코더(NLA)를 공개했습니다. 이 기술은 운율, 안전 테스트 인지, 부정행위 탐지에 대한 모델의 추론을 드러냅니다.

키미 K2.5: AI 자동화의 새로운 지평을 열다
Kimi k2.5는 AI 자동화의 새로운 기준을 세우며, 기술 커뮤니티에서 주목받는 고급 기능을 자랑합니다. 이것이 어떻게 기술 환경을 재구성하고 있는지 알아보세요.

클로드 AI, 백업 발견 및 무차별 대입 버그 수정으로 11년 된 40만 달러 상당 비트코인 지갑 복구
한 사용자가 11년 전 대학 시절 컴퓨터 파일 전체를 Claude에 입력하여 5 BTC(약 $400K 상당) 지갑을 복구했습니다. AI는 오래된 백업 지갑을 찾아내고 btcrecover의 비밀번호 조합 로직에서 버그를 식별하여 성공적으로 암호 해독을 가능하게 했습니다.