SSD 스트리밍으로 M5 Max Qwen3.5-397B 20.34 tok/s 달성

하드웨어 및 모델 구성

실험은 128GB 통합 메모리와 40코어 GPU를 탑재한 MacBook Pro M5 Max에서 진행되었습니다. 사용된 모델은 Qwen3.5-397B-A17B로, Q3-GGUF 전문가(Unsloth IQ3_XXS/IQ4_XS 혼합 정밀도), Q8_0 임베딩, Q6_K LM 헤드를 사용했습니다. 디스크 상에서 209GB를 차지하는 이 모델은 사용 가능한 RAM보다 4배 크기 때문에 모든 것을 SSD에서 스트리밍해야 했습니다.

성능 결과

디코딩 속도는 5.52 tok/s의 프리필과 함께 20.34 tok/s에 도달했습니다. 이는 M5 Max 시작점인 10.61 tok/s 대비 2배 향상이며, M3 Max 하드웨어에서 Dan Woods의 원래 기준선인 4.36 tok/s 대비 4.67배 향상을 나타냅니다.

방법론

연구자는 Dan Woods의 flash-moe 프로젝트에서 가져온 autoresearch 루프 방법론을 사용하여 Claude Code(Anthropic)로 체계적으로 36번의 실험을 실행하고 평가했습니다. 각 실험은 진행 전에 결과가 기록되었으며, 퍼플렉서티 임계값을 통한 자동 품질 게이팅으로 회귀를 포착했습니다. 인간-AI 협업은 연구자가 연구를 지시하고 과학적 결정을 내리는 동안 Claude Code가 지시에 따라 구현하고 벤치마킹하는 방식으로 이루어졌습니다.

기술적 기반

이 작업은 Dan Woods의 원래 flash-moe 논문과 Anemll의 포크를 기반으로 하며, 이는 Apple Silicon에서 SSD 스트리밍을 통해 Qwen3.5-397B를 실행하기 위한 순수 C/Metal 추론 엔진입니다. Anemll 포크는 이러한 결과에 필수적인 Q3-GGUF 전문가 지원을 추가했으며, 연구자는 여기에 더 나아가 Metal 수준의 최적화를 추가했습니다.

효과적인 최적화

16 IO 스레드 + cache-io-split=4: 각 전문가 가중치 파일을 하나의 순차적 청크로 읽는 대신, 4개의 병렬 페이지 정렬 읽기로 분할하여 서로 다른 SSD 채널을 동시에 타격. +1.5 tok/s
시간적 전문가 예측: 27%의 크로스-토큰 라우팅 상관관계 발견, SSD 읽기와 GPU 계산 중첩. +4.3 tok/s
Q3-GGUF 전문가(Unsloth IQ3_XXS/IQ4_XS): Q3이 최적점인 더 작은 페이로드. 4비트보다 더 나은 퍼플렉서티(5.58 대 5.62)를 유지하면서 23% 더 작음. +2.3 tok/s
CMD2 사전 인코딩: 레이어당 30μs 제출 간격 제거. +0.44 tok/s
퓨즈드 Q/K/V 투영 커널: 입력 벡터를 세 번이 아닌 한 번 읽기(Metal GPU 최적화). +0.76 tok/s
CMD2 사전 인코딩을 모든 전체-어텐션 레이어로 확장: +0.47 tok/s

참고: 일부 최적화가 서로 상호작용하기 때문에 이득이 완벽하게 가산되지는 않습니다.

실패한 접근법

연구는 78%의 폐기율을 기록했습니다. 실패한 접근법에는 다음이 포함됩니다: 1비트 QJL 양자화(퍼플렉서티 5647, 파국적), 84% 가중치 희소성을 가진 3진 2비트(모델 붕괴), K=3 전문가 라우팅(품질 붕괴), 크로스-레이어 예측(0% 적중률), NAX 오프로딩(타일 패딩 오버헤드로 이득 상쇄), 2비트 MLX 전문가(격리 상태에서는 더 빠르지만 더 나쁜 퍼플렉서티와 Q3에 시간적 예측이 적용된 후 속도 이점 없음).

한계 및 향후 작업

연구는 단일 하드웨어 플랫폼으로 제한되므로 결과가 일반화되지 않을 수 있습니다. 이 규모의 Q3 양자화는 장문 생성에서 눈에 띄게 저하되어 짧은 작업에는 허용 가능한 품질을 유지하지만 긴 응답에서는 아티팩트를 생성합니다. 품질은 퍼플렉서티만으로 평가되었으며, MMLU나 GPQA와 같은 표준화된 벤치마크는 사용되지 않았습니다. 이는 속도 연구 프로젝트이며, 프로덕션 품질 주장이 아닙니다.

놀라운 발견 하나: Apple의 Neural Engine(ANE)은 추론 중 완전히 유휴 상태였으며, 38 TOPS의 컴퓨팅 성능을 제공함에도 0W를 소비했습니다. 문제는 MoE 추론이 어떤 전문가를 활성화할지 동적으로 결정해야 하는 반면, ANE는 정적 사전 컴파일된 그래프에서만 작동한다는 점입니다. 배치 프리필을 위한 기회가 있을 수 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

SSD 스트리밍을 통해 M5 Max에서 Qwen3.5-397B의 속도를 20.34 tok/s로 향상시킨 Autoresearch

하드웨어 및 모델 구성

성능 결과

방법론

기술적 기반

효과적인 최적화

실패한 접근법

한계 및 향후 작업

👀 See Also

사용자가 학술 프로젝트 지원을 위해 Gemini Pro에서 Claude Max로 전환했다고 보고합니다

개발자, 800만 달러 규모 AI 음악 스트리밍 사기 혐의로 유죄 인정

클로드 코드의 속도 제한은 100만 컨텍스트 윈도우 과부하 때문일 수 있습니다

Claude 코드 시스템 프롬프트 v2.1.139: AWS 문서상의 Claude 플랫폼, 요약 보안, PowerShell 도구