MTP + 통합 메모리로 llama.cpp 추론 30% 향상 (RTX 5090)

llama.cpp에서 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1과 MTP(Multi-Token Prediction) 추측을 함께 사용하면 처리량이 약 30% 향상됩니다. Qwen3.6-27B Q8_0 모델 기준 49 tok/sec에서 64 tok/sec로 증가했습니다. 벤치마크는 RTX 5090에 128GB DDR5 5600 CL36 메모리와 Ryzen 9 9950X3D 프로세서를 조합하여 실행했습니다.

명령 및 구성

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

주요 플래그:

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — GPU가 호스트 메모리에 직접 접근할 수 있도록 하여 큰 컨텍스트에서 CUDA malloc을 우회합니다.
--spec-type mtp --spec-draft-n-max 3 — 드래프트 깊이 3으로 다중 토큰 예측 추측을 활성화합니다.
Qwen3.6-27B-Q8_0.gguf — Q8_0으로 양자화된 27B 파라미터 Qwen3.6 모델로, Unsloth의 MTP 지원으로 준비되었습니다.
-c 262144 — 256K 컨텍스트 윈도우; -fa on은 플래시 어텐션을 활성화합니다.