Qwen3.5-397B MoE, 14GB RAM에서 실행하는 방법

u/ur_dad_matt의 Reddit 게시물(Claude 경유)은 M1 Ultra 64GB Mac Studio에서 Qwen3.5-397B-A17B(디스크 209GB, 512 전문가, top-10 라우팅)를 최대 RAM 14GB, 추론 속도 1.59 tok/s로 실행하는 커스텀 paged MoE 엔진을 보여줍니다. 이 모델은 단순 로딩이 불가능합니다. 엔진은 K=20개의 전문가만 RAM에 유지하고, 라우터 요청 시 SSD에서 나머지를 지연 페이지로 로드하며 캐시 압박 시 제거합니다. 연산은 Float16을 사용하며(MPS에서 ternary보다 빠름), Apple Silicon 네이티브, MLX 기반입니다.

M1 Ultra 64GB에서 5개 프롬프트 스윕 벤치마크 결과:

속도: 1.59 tok/s (5개 일관된 생성 평균, K=20)
캐시 RSS 피크(생성): 7.91 GB
전체 RSS 피크: 14.04 GB
일관된 출력: 5/5

최적 엔진 설정: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. 초기 시도에서 모든 전문가를 디스크에 두면 명령 버퍼 할당 실패가 발생했으나 캐시 크기 조정 후 해결되었습니다.

저자는 64GB 하드웨어의 로컬 LLM에 대해 원시 점수 벤치마크가 의미가 없으며, 핵심 지표는 GB당 MMLU라고 주장합니다. 1.59 tok/s에서 모델은 채팅 속도가 아닌 '생각 속도'로 실행되며, 이는 모델 대 메모리 비율의 상한을 보여줍니다.

동일 하드웨어에서 소형 양자화 모델 속도(MLX-4비트):

4B Nano: 71.7 tok/s
9B Lite: 53.4 tok/s
26B-A4B Quick: 14.6 tok/s
27B Core: 40.7 tok/s (MMLU 0.851 n=14042 σ=0.003, HumanEval 0.866 n=164 σ=0.027)
35B-A3B Vision: 64.1 tok/s
397B Plus: 1.59 tok/s

런타임은 Tauri + Rust + MLX로 macOS용으로 제작되었습니다. 무료 티어(Nano 및 Lite)는 outlier.host에서 영구 제공됩니다. 비디오 데모는 Reddit 게시물에 포함되어 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

Qwen3.5-397B MoE, M1 Ultra에서 페이지드 전문가 로딩으로 14GB RAM에서 실행

👀 See Also

AI 에이전트 용어 실용 용어집 (하네스, 스캐폴드, 에이전트 등)

OpenClaw 설정 체크리스트: 신규 사용자를 위한 여섯 가지 핵심 단계

블랙웰 GB10에서 CUDA 13.0으로 vLLM을 실행할 때 발생하는 aarch64 특정 장애 모드 네 가지

AWS에서 Claude Code로 월 0.01달러에 서버리스 AI 에이전트 플랫폼 구축하기