Qwen 3.5 122B MoE, 단일 3090에서 35 t/s: ik

한 개발자가 완전히 로컬 환경에서 단일 데스크톱으로 Qwen 3.5 122B MoE를 단일 3090만 사용하여 초당 35토큰을 달성했다고 보고했습니다. 핵심은 llama.cpp의 포크로, 오프로드된 전문가에 대한 MTP(다중 토큰 예측)를 수정한 것입니다.

하드웨어 구성

AMD 9900X CPU
192GB DDR5-5200 RAM (일명 "비밀 무기")
3090 2개 (Ti + 일반), NVLink 없음

카드 1은 워커 실행: Unsloth IQ3_S MTP GGUF와 204K 컨텍스트를 사용한 Qwen3.5-122B-A10B. 75%의 전문가 레이어가 세부 -ot 플래그를 통해 CPU로 오프로드됩니다. 카드 2는 리즈너 실행: 135 t/s, 262K 컨텍스트의 MTP를 사용한 Qwen3.6-35B-A3B Q4_K_XL.

추가 CPU 전용 인스턴스가 백그라운드 처리를 담당: Dialectic (35B heretical Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — 총 약 19GB RAM 사용.

ik_llama.cpp 발견

기본 llama.cpp의 MTP는 각 추측된 토큰의 전문가를 DDR5를 통해 순차적으로 평가하는데, 추론 콘텐츠에서는 실제로 성능이 저하됩니다—드래프트 오버헤드가 수용 속도 향상을 압도합니다. ik 포크는 추측된 토큰에 대한 전문가 읽기를 배치 처리하는 융합 MoE 연산을 구현하여 MTP를 +4% 이득에서 +20% 이득으로 전환합니다. 개발자는 이 포크를 사용하여 단일 3090에서 122B 모델로 35 t/s 디코딩을 보고했습니다.

MoE 모델에서 RAM으로 전문가를 오프로드하는 경우, MTP를 포기하기 전에 ik_llama.cpp를 시도해보세요.