2x3090에서 CPU 오프로딩으로 MiniMax M2.7 Q8_0 128K 실행 – 실제 벤치마크 및 설정

✍️ OpenClawRadar📅 게시일: May 17, 2026🔗 Source
2x3090에서 CPU 오프로딩으로 MiniMax M2.7 Q8_0 128K 실행 – 실제 벤치마크 및 설정
Ad

최근 r/LocalLLaMA 게시글에서 한 사용자가 2x3090 설정, 256GB DDR4, 중고 10900X CPU에서 MiniMax M2.7 모델(Q8_0 양자화)을 128K 컨텍스트로 실행한 경험을 공유했습니다. 핵심 과제는 대규모 MoE 모델을 양자화되지 않은 KV 캐시와 함께 비교적 저사양 하드웨어에서 실행하는 것이었습니다.

성능 수치

사용자는 다음과 같이 보고합니다:

  • 프롬프트 처리: 초당 약 50 토큰
  • 토큰 생성: 초당 약 10 토큰
  • “매우 느리지만 코딩 에이전트 워크플로우에는 사용 가능”으로 설명

설정

그들은 ik-llama-cuda(llama.cpp 포크)를 사용하며 다음 플래그를 적용했습니다(NixOS 구성 기준):

${ik-llama-cuda}/bin/llama-server \
  -m ${modelPath} \
  --host 0.0.0.0 \
  --port ${toString cfg.port} \
  -c ${toString cfg.contextLength} \
  -ngl 999 \
  --cpu-moe \
  -sm graph \
  -fa on \
  -t 16 \
  -tb 16 \
  -b 4096 \
  -ub 4096 \
  -np 1 \
  -muge \
  -ger \
  --jinja \
  --metrics \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 40 \
  --min-p 0.01

주목할 만한 플래그:

  • --cpu-moe – MoE 전문가 계산을 CPU로 오프로드
  • -sm graph – 그래프 기반 스케줄링 활성화
  • -fa on – 플래시 어텐션
  • -t 16 / -tb 16 – 계산 및 배치 각각에 대한 스레드 16개
  • -b 4096 / -ub 4096 – 배치 및 부분 배치 크기
  • -muge – 메모리 사용량 기반 전문가 로딩(추정)
  • -ger – GPU 전문가 라우팅

Ad

배경 및 동기

사용자는 낮은 양자화에서 보이는 “이상한 동작”을 완화하기 위해 Q8_0을 선택했다고 보고합니다. 또한 M2.7용 추측 디코딩을 위한 드래프트 모델이 공개되지 않아 속도 향상이 가능했을 것이라고 언급합니다. 그들은 생성이 “말 그대로 하루 종일” 걸리지 않는 한, 속도보다 정확성에 중점을 둡니다.

개발자를 위한 시사점

이것은 대규모 MoE 모델을 시스템 RAM을 사용하는 멀티 GPU 설정에서 실행하는 사람에게 유용한 실제 데이터 포인트입니다. --cpu-moe 접근 방식은 VRAM 한계를 훨씬 넘어 컨텍스트를 확장할 수 있지만 속도는 저하됩니다. 지연 시간이 덜 중요한 코딩 에이전트 워크플로우의 경우 이러한 트레이드오프가 허용될 수 있습니다.

📖 전체 출처 보기: r/LocalLLaMA

Ad

👀 See Also

프론트엔드 개발자가 Claude AI를 사용할 때 갖춰야 할 덜 명확한 5가지 에이전트 스킬
Tips

프론트엔드 개발자가 Claude AI를 사용할 때 갖춰야 할 덜 명확한 5가지 에이전트 스킬

프론트엔드 개발자가 Claude AI 에이전트의 생산성과 코드 품질을 향상시키는 5가지 구체적인 Skill을 공유합니다: Playwright, 고급 TypeScript 타입, LyteNyte Grid, Tailwind CSS 패턴, PNPM Skill.

OpenClawRadar
클로드 코드의 결함 있는 가정을 검증하고 우회 방법을 제시하는 경향
Tips

클로드 코드의 결함 있는 가정을 검증하고 우회 방법을 제시하는 경향

한 개발자가 Claude Code가 잘못된 가정에 대해 의문을 제기하지 않고 결함이 있는 아키텍처를 열정적으로 구현하여 디버깅 시간을 낭비하게 한다고 보고했습니다. 해결책은 복잡한 요청에 '내가 틀릴 수도 있다고 가정하세요'를 명시적으로 추가하는 것입니다.

OpenClawRadar
클로드가 굴복하지 않고 적대적 토론을 하게 만드는 5가지 프롬프트 조정법
Tips

클로드가 굴복하지 않고 적대적 토론을 하게 만드는 5가지 프롬프트 조정법

상대방 역할을 하는 클로드(Claude)가 얼버무리기, 아첨, 날조를 방지하는 5가지 구체적인 프롬프트 엔지니어링 기법으로, sparwithai.com 구축 경험을 바탕으로 합니다.

OpenClawRadar
Claude를 비싼 자동완성 도구로 사용하지 말고, 역할 정의, 메모리 파일, 정제 의식을 갖춘 SDR 시스템을 구축하세요
Tips

Claude를 비싼 자동완성 도구로 사용하지 말고, 역할 정의, 메모리 파일, 정제 의식을 갖춘 SDR 시스템을 구축하세요

Reddit 게시글은 대부분의 영업팀이 클로드를 '시스템'이 아닌 '챗봇'으로 사용하고 있다고 주장합니다. 해결책: 역할을 정의하고, ICP/어조/학습 내용이 담긴 메모리 파일을 유지하며, 주간 개선 의식을 통해 출력 품질을 향상시키는 것입니다.

OpenClawRadar