SSD 스트리밍을 통해 M5 Max에서 Qwen3.5-397B의 속도를 20.34 tok/s로 향상시킨 Autoresearch

✍️ OpenClawRadar📅 게시일: March 30, 2026🔗 Source
SSD 스트리밍을 통해 M5 Max에서 Qwen3.5-397B의 속도를 20.34 tok/s로 향상시킨 Autoresearch
Ad

하드웨어 및 모델 구성

실험은 128GB 통합 메모리와 40코어 GPU를 탑재한 MacBook Pro M5 Max에서 진행되었습니다. 사용된 모델은 Qwen3.5-397B-A17B로, Q3-GGUF 전문가(Unsloth IQ3_XXS/IQ4_XS 혼합 정밀도), Q8_0 임베딩, Q6_K LM 헤드를 사용했습니다. 디스크 상에서 209GB를 차지하는 이 모델은 사용 가능한 RAM보다 4배 크기 때문에 모든 것을 SSD에서 스트리밍해야 했습니다.

성능 결과

디코딩 속도는 5.52 tok/s의 프리필과 함께 20.34 tok/s에 도달했습니다. 이는 M5 Max 시작점인 10.61 tok/s 대비 2배 향상이며, M3 Max 하드웨어에서 Dan Woods의 원래 기준선인 4.36 tok/s 대비 4.67배 향상을 나타냅니다.

방법론

연구자는 Dan Woods의 flash-moe 프로젝트에서 가져온 autoresearch 루프 방법론을 사용하여 Claude Code(Anthropic)로 체계적으로 36번의 실험을 실행하고 평가했습니다. 각 실험은 진행 전에 결과가 기록되었으며, 퍼플렉서티 임계값을 통한 자동 품질 게이팅으로 회귀를 포착했습니다. 인간-AI 협업은 연구자가 연구를 지시하고 과학적 결정을 내리는 동안 Claude Code가 지시에 따라 구현하고 벤치마킹하는 방식으로 이루어졌습니다.

기술적 기반

이 작업은 Dan Woods의 원래 flash-moe 논문과 Anemll의 포크를 기반으로 하며, 이는 Apple Silicon에서 SSD 스트리밍을 통해 Qwen3.5-397B를 실행하기 위한 순수 C/Metal 추론 엔진입니다. Anemll 포크는 이러한 결과에 필수적인 Q3-GGUF 전문가 지원을 추가했으며, 연구자는 여기에 더 나아가 Metal 수준의 최적화를 추가했습니다.

Ad

효과적인 최적화

  • 16 IO 스레드 + cache-io-split=4: 각 전문가 가중치 파일을 하나의 순차적 청크로 읽는 대신, 4개의 병렬 페이지 정렬 읽기로 분할하여 서로 다른 SSD 채널을 동시에 타격. +1.5 tok/s
  • 시간적 전문가 예측: 27%의 크로스-토큰 라우팅 상관관계 발견, SSD 읽기와 GPU 계산 중첩. +4.3 tok/s
  • Q3-GGUF 전문가(Unsloth IQ3_XXS/IQ4_XS): Q3이 최적점인 더 작은 페이로드. 4비트보다 더 나은 퍼플렉서티(5.58 대 5.62)를 유지하면서 23% 더 작음. +2.3 tok/s
  • CMD2 사전 인코딩: 레이어당 30μs 제출 간격 제거. +0.44 tok/s
  • 퓨즈드 Q/K/V 투영 커널: 입력 벡터를 세 번이 아닌 한 번 읽기(Metal GPU 최적화). +0.76 tok/s
  • CMD2 사전 인코딩을 모든 전체-어텐션 레이어로 확장: +0.47 tok/s

참고: 일부 최적화가 서로 상호작용하기 때문에 이득이 완벽하게 가산되지는 않습니다.

실패한 접근법

연구는 78%의 폐기율을 기록했습니다. 실패한 접근법에는 다음이 포함됩니다: 1비트 QJL 양자화(퍼플렉서티 5647, 파국적), 84% 가중치 희소성을 가진 3진 2비트(모델 붕괴), K=3 전문가 라우팅(품질 붕괴), 크로스-레이어 예측(0% 적중률), NAX 오프로딩(타일 패딩 오버헤드로 이득 상쇄), 2비트 MLX 전문가(격리 상태에서는 더 빠르지만 더 나쁜 퍼플렉서티와 Q3에 시간적 예측이 적용된 후 속도 이점 없음).

한계 및 향후 작업

연구는 단일 하드웨어 플랫폼으로 제한되므로 결과가 일반화되지 않을 수 있습니다. 이 규모의 Q3 양자화는 장문 생성에서 눈에 띄게 저하되어 짧은 작업에는 허용 가능한 품질을 유지하지만 긴 응답에서는 아티팩트를 생성합니다. 품질은 퍼플렉서티만으로 평가되었으며, MMLU나 GPQA와 같은 표준화된 벤치마크는 사용되지 않았습니다. 이는 속도 연구 프로젝트이며, 프로덕션 품질 주장이 아닙니다.

놀라운 발견 하나: Apple의 Neural Engine(ANE)은 추론 중 완전히 유휴 상태였으며, 38 TOPS의 컴퓨팅 성능을 제공함에도 0W를 소비했습니다. 문제는 MoE 추론이 어떤 전문가를 활성화할지 동적으로 결정해야 하는 반면, ANE는 정적 사전 컴파일된 그래프에서만 작동한다는 점입니다. 배치 프리필을 위한 기회가 있을 수 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

레딧 사용자가 개발자들에게 AI 에이전트를 활용한 모델 아키텍처로 클린 코딩에서 전환해야 한다고 주장합니다
News

레딧 사용자가 개발자들에게 AI 에이전트를 활용한 모델 아키텍처로 클린 코딩에서 전환해야 한다고 주장합니다

레딧 게시글에서 클로드와 같은 AI 코딩 에이전트를 사용하는 개발자들이 깨끗한 코드 작성에 집중하는 것을 멈추고 AI 시스템을 조율하는 '모델 아키텍트'가 되어야 한다고 주장합니다. 저자는 코딩 전 '로직 맵'을 만들고 프롬프트를 디자인 리뷰처럼 다루는 구체적인 기법을 공유합니다.

OpenClawRadar
펜타곤, 클로드 AI 군사적 사용 허용을 위해 Anthropic에 72시간 부여
News

펜타곤, 클로드 AI 군사적 사용 허용을 위해 Anthropic에 72시간 부여

미국 국방부는 클로드 AI를 개발한 Anthropic에 72시간 내로 군사적 사용을 허용하라는 최후통첩을 보냈으며, 이 스타트업이 이에 따르지 않을 경우 1950년 법률을 적용하여 강제 이행을 시도할 것이라고 위협했습니다.

OpenClawRadar
슬랙 속도 제한 변경으로 OpenClaw 컨텍스트 검색 기능이 중단되었습니다
News

슬랙 속도 제한 변경으로 OpenClaw 컨텍스트 검색 기능이 중단되었습니다

Slack이 3월 3일에 속도 제한을 변경하여, 비마켓플레이스 앱의 conversations.history 및 conversations.replies를 분당 1회 요청, 최대 15개 메시지로 제한했습니다. 이로 인해 OpenClaw 에이전트가 컨텍스트 창의 85%를 잃게 됩니다.

OpenClawRadar
클로드 코드 시스템 프롬프트 v2.1.53-2.1.55: 메모리 선택 기능 추가, 명령 실행 기능 제거
News

클로드 코드 시스템 프롬프트 v2.1.53-2.1.55: 메모리 선택 기능 추가, 명령 실행 기능 제거

Claude Code 시스템 프롬프트 버전 2.1.53부터 2.1.55까지 메모리 선택 지침(156 토큰)이 추가되었고, 명령 실행 전문가(109 토큰)가 제거되었으며, 프롬프트가 약 70개의 원자적 파일로 재구성되었습니다. 백그라운드 에이전트는 이제 출력 파일 경로를 제공하는 대신 완료 시 자동으로 알림을 보냅니다.

OpenClawRadar