Qwen3.5-397B MoE, M1 Ultra에서 페이지드 전문가 로딩으로 14GB RAM에서 실행

u/ur_dad_matt의 Reddit 게시물(Claude 경유)은 M1 Ultra 64GB Mac Studio에서 Qwen3.5-397B-A17B(디스크 209GB, 512 전문가, top-10 라우팅)를 최대 RAM 14GB, 추론 속도 1.59 tok/s로 실행하는 커스텀 paged MoE 엔진을 보여줍니다. 이 모델은 단순 로딩이 불가능합니다. 엔진은 K=20개의 전문가만 RAM에 유지하고, 라우터 요청 시 SSD에서 나머지를 지연 페이지로 로드하며 캐시 압박 시 제거합니다. 연산은 Float16을 사용하며(MPS에서 ternary보다 빠름), Apple Silicon 네이티브, MLX 기반입니다.
M1 Ultra 64GB에서 5개 프롬프트 스윕 벤치마크 결과:
- 속도: 1.59 tok/s (5개 일관된 생성 평균, K=20)
- 캐시 RSS 피크(생성): 7.91 GB
- 전체 RSS 피크: 14.04 GB
- 일관된 출력: 5/5
최적 엔진 설정: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. 초기 시도에서 모든 전문가를 디스크에 두면 명령 버퍼 할당 실패가 발생했으나 캐시 크기 조정 후 해결되었습니다.
저자는 64GB 하드웨어의 로컬 LLM에 대해 원시 점수 벤치마크가 의미가 없으며, 핵심 지표는 GB당 MMLU라고 주장합니다. 1.59 tok/s에서 모델은 채팅 속도가 아닌 '생각 속도'로 실행되며, 이는 모델 대 메모리 비율의 상한을 보여줍니다.
동일 하드웨어에서 소형 양자화 모델 속도(MLX-4비트):
- 4B Nano: 71.7 tok/s
- 9B Lite: 53.4 tok/s
- 26B-A4B Quick: 14.6 tok/s
- 27B Core: 40.7 tok/s (MMLU 0.851 n=14042 σ=0.003, HumanEval 0.866 n=164 σ=0.027)
- 35B-A3B Vision: 64.1 tok/s
- 397B Plus: 1.59 tok/s
런타임은 Tauri + Rust + MLX로 macOS용으로 제작되었습니다. 무료 티어(Nano 및 Lite)는 outlier.host에서 영구 제공됩니다. 비디오 데모는 Reddit 게시물에 포함되어 있습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

macOS에서 통합 AI 제공자 엔드포인트로 OpenClaw 설정하기
한 개발자가 macOS에 OpenClaw를 설치한 경험을 공유했습니다. Node.js 24 필요성, Homebrew를 통한 설치, ZenMux와 같은 사용자 정의 OpenAI 호환 제공자 구성, 백그라운드 데몬 설정이 포함됩니다. 주요 문제 해결 팁으로는 WhatsApp의 기본 메시지 차단과 openclaw doctor 명령어 사용이 있습니다.

30일간의 프리랜스 비즈니스를 위한 클로드: 효과적인 5가지 프롬프트
한 프리랜서가 30일 동안 매일 Claude를 테스트한 결과, 제안서 작성 시간을 45분에서 5분으로 줄이고, 이의 없이 요금을 30% 인상하며, 콜드 피치 응답률을 3배 높인 5가지 프롬프트를 공유합니다.

iOS 개발자, 여러 앱 출시 후 Claude 코드 모범 사례 공유
사이버 보안 배경을 가진 iOS 개발자가 Claude Code를 효과적으로 사용하기 위한 구체적인 실천 방법을 제시합니다. 여기에는 환경 분리, 관측 가능성 설정, 기술 부채 축적 방지 등이 포함됩니다.

OpenClaw로 Google Meet와 Teams 대화 기록을 손쉽게 캡처하세요 — 기술 및 설정 가이드
OpenClaw를 Google Meet 및 Microsoft Teams에 통합하면 원활한 자막 생성 기능을 제공합니다. 더 나은 업무 효율성을 위해 이 과정을 설정하고 최적화하는 방법을 알아보세요.