M5 Pro 64GB RAM에서 Qwen3.5-122B-A10B-MINT-MLX 로컬 구동 성공

애플 실리콘에서의 로컬 LLM 성능

레딧 사용자가 M5 Pro(64GB RAM)에서 Qwen3.5-122B-A10B-MINT-MLX 모델을 로컬로 실행한 경험을 공유했습니다. 이 설정은 적절한 구성으로 대규모 언어 모델이 소비자용 하드웨어에서 효과적으로 실행될 수 있음을 보여줍니다.

사용자는 VRAM 할당을 위한 특정 터미널 명령어를 사용하여 원활한 성능을 달성했습니다:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

LM Studio에서 컨텍스트 창을 16384 토큰으로 설정했습니다. 이 구성으로 시스템은 Safari(여러 탭), 메시지, 활동 모니터를 동시에 실행하면서도 안정적인 성능을 유지했습니다.

Qwen3.5-122B-A10B-MINT-MLX 모델의 성능은 다음과 같습니다:

사용자는 이 모델이 "여러 수수께끼를 정확히 풀고 약간의 바이브 코딩을 수행했다"고 언급하며, 3비트 MINT 양자화에 대한 불만은 없었습니다. 유일한 문제는 컨텍스트 창이 가득 차 VRAM 사용량이 59GB에 가까워졌을 때 시스템이 멈춘 경우였습니다.

사용자는 "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8" 모델도 테스트했는데, 122B 모델보다 정확도는 높지만 속도는 훨씬 느렸습니다:

이는 개발자가 로컬 LLM 구성을 선택할 때 모델 크기, 양자화, 추론 속도 사이에서 고려해야 하는 절충점을 보여줍니다.

📖 전체 원문 읽기: r/LocalLLaMA