2x3090 CPU 오프로딩 MiniMax M2.7 Q8_0 128K 실행 벤치마크

최근 r/LocalLLaMA 게시글에서 한 사용자가 2x3090 설정, 256GB DDR4, 중고 10900X CPU에서 MiniMax M2.7 모델(Q8_0 양자화)을 128K 컨텍스트로 실행한 경험을 공유했습니다. 핵심 과제는 대규모 MoE 모델을 양자화되지 않은 KV 캐시와 함께 비교적 저사양 하드웨어에서 실행하는 것이었습니다.

성능 수치

사용자는 다음과 같이 보고합니다:

프롬프트 처리: 초당 약 50 토큰
토큰 생성: 초당 약 10 토큰
“매우 느리지만 코딩 에이전트 워크플로우에는 사용 가능”으로 설명

설정

그들은 ik-llama-cuda(llama.cpp 포크)를 사용하며 다음 플래그를 적용했습니다(NixOS 구성 기준):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

주목할 만한 플래그:

--cpu-moe – MoE 전문가 계산을 CPU로 오프로드
-sm graph – 그래프 기반 스케줄링 활성화
-fa on – 플래시 어텐션
-t 16 / -tb 16 – 계산 및 배치 각각에 대한 스레드 16개
-b 4096 / -ub 4096 – 배치 및 부분 배치 크기
-muge – 메모리 사용량 기반 전문가 로딩(추정)
-ger – GPU 전문가 라우팅

배경 및 동기

사용자는 낮은 양자화에서 보이는 “이상한 동작”을 완화하기 위해 Q8_0을 선택했다고 보고합니다. 또한 M2.7용 추측 디코딩을 위한 드래프트 모델이 공개되지 않아 속도 향상이 가능했을 것이라고 언급합니다. 그들은 생성이 “말 그대로 하루 종일” 걸리지 않는 한, 속도보다 정확성에 중점을 둡니다.

개발자를 위한 시사점

이것은 대규모 MoE 모델을 시스템 RAM을 사용하는 멀티 GPU 설정에서 실행하는 사람에게 유용한 실제 데이터 포인트입니다. --cpu-moe 접근 방식은 VRAM 한계를 훨씬 넘어 컨텍스트를 확장할 수 있지만 속도는 저하됩니다. 지연 시간이 덜 중요한 코딩 에이전트 워크플로우의 경우 이러한 트레이드오프가 허용될 수 있습니다.

📖 전체 출처 보기: r/LocalLLaMA

2x3090에서 CPU 오프로딩으로 MiniMax M2.7 Q8_0 128K 실행 – 실제 벤치마크 및 설정

성능 수치

설정

배경 및 동기

개발자를 위한 시사점

👀 See Also

Claude + MCP 브라우저: 사용자 보고 강화된 웹 접속

프로젝트 트리 외부에서 주문형 CLAUDE.md 로딩을 위한 사용자 정의 PostToolUse 훅

클로드 코드 헤드리스 모드와 --print 플래그

장기 프로젝트에서 OpenClaw 컨텍스트 유지를 위한 프로젝트 내러티브 활용