MTP + 통합 메모리가 RTX 5090에서 llama.cpp 추론 성능을 30% 향상시키다

✍️ OpenClawRadar📅 게시일: May 12, 2026🔗 Source
Ad

llama.cpp에서 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1과 MTP(Multi-Token Prediction) 추측을 함께 사용하면 처리량이 약 30% 향상됩니다. Qwen3.6-27B Q8_0 모델 기준 49 tok/sec에서 64 tok/sec로 증가했습니다. 벤치마크는 RTX 5090에 128GB DDR5 5600 CL36 메모리와 Ryzen 9 9950X3D 프로세서를 조합하여 실행했습니다.

명령 및 구성

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

주요 플래그:

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — GPU가 호스트 메모리에 직접 접근할 수 있도록 하여 큰 컨텍스트에서 CUDA malloc을 우회합니다.
  • --spec-type mtp --spec-draft-n-max 3 — 드래프트 깊이 3으로 다중 토큰 예측 추측을 활성화합니다.
  • Qwen3.6-27B-Q8_0.gguf — Q8_0으로 양자화된 27B 파라미터 Qwen3.6 모델로, Unsloth의 MTP 지원으로 준비되었습니다.
  • -c 262144 — 256K 컨텍스트 윈도우; -fa on은 플래시 어텐션을 활성화합니다.
Ad

결과

  • MTP 미사용 (통합 메모리만): 49 tok/sec
  • MTP + 통합 메모리 사용: 64 tok/sec
  • 향상: 처리량 30% 증가

draft-n-max가 3이므로 모델은 최대 3개의 토큰을 미리 추측하여 순차적 디코딩 오버헤드를 줄입니다. 통합 메모리와 결합하면 CPU와 GPU RAM 간의 비싼 PCIe 전송을 피할 수 있습니다.

대상 사용자

고급 소비자 GPU(RTX 5090)와 충분한 시스템 RAM(≥128GB)으로 대규모 컨텍스트 로컬 추론을 실행하는 개발자. 추측 샘플링을 지원하는 챗봇, 코드 어시스턴트, 또는 지연 시간에 민감한 LLM 워크로드에 적합합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

wmux: MCP를 통한 브라우저 제어 기능을 갖춘 Windows용 Electron 터미널 멀티플렉서
Tools

wmux: MCP를 통한 브라우저 제어 기능을 갖춘 Windows용 Electron 터미널 멀티플렉서

wmux는 Windows 10/11용 오픈소스 Electron 터미널 멀티플렉서로, tmux 스타일 분할 화면, 지속적 세션, Claude Code와 같은 AI 코딩 에이전트를 위한 Chrome DevTools Protocol을 통한 브라우저 제어 기능을 제공합니다. 이는 자동으로 MCP 서버로 등록되며, 에이전트가 여러 세션을 나란히 실행하면서 브라우저와 상호작용할 수 있게 합니다.

OpenClawRadar
Skir: 타입 안전 데이터 교환을 위한 프로토콜 버퍼의 현대적 대안
Tools

Skir: 타입 안전 데이터 교환을 위한 프로토콜 버퍼의 현대적 대안

Skir는 데이터 타입, 상수 및 API를 정의하는 선언적 언어로, 단일 .skir 파일로부터 TypeScript, Python, Java, C++, Kotlin, Dart에서 관용적이고 타입 안전한 코드를 생성합니다. 내장된 스키마 진화 안전성, gRPC와 유사한 RPC 지원, JSON 또는 바이너리 형식으로의 직렬화를 포함합니다.

OpenClawRadar
코텍스: 에빙하우스 감쇠를 적용한 오픈클로 에이전트를 위한 로컬 메모리 계층
Tools

코텍스: 에빙하우스 감쇠를 적용한 오픈클로 에이전트를 위한 로컬 메모리 계층

Cortex는 OpenClaw 에이전트의 컨텍스트 압축 문제를 해결하기 위해 구축된 오픈소스 메모리 도구입니다. 사실 소멸을 위해 에빙하우스 망각 곡선을 구현하고, 파일에서 먼저 가져오며, SQLite를 사용하는 단일 19MB Go 바이너리로 실행됩니다.

OpenClawRadar
Rails-AI-Context Gem은 MCP를 통해 Claude 코드에 완전한 Rails 앱 모델을 제공합니다
Tools

Rails-AI-Context Gem은 MCP를 통해 Claude 코드에 완전한 Rails 앱 모델을 제공합니다

rails-ai-context 젬은 Rails 애플리케이션을 자동으로 내부 검사하고 MCP를 통해 39가지 도구를 노출하여 Claude Code가 전체 파일을 읽는 대신 암호화된 컬럼이 있는 스키마, 모델 연관관계, 라우트, Stimulus 연결, Turbo 매핑과 같은 특정 앱 세부사항을 질의할 수 있게 합니다.

OpenClawRadar