Mac Studio 로컬 LLM 설정: GLM 5.1 vs Kimi K2.6 성능 비교

r/LocalLLaMA에서 사용자 ezyz가 2026년 5월 기준, 512GB 통합 메모리를 탑재한 M3 Ultra에서 실행 중인 Mac Studio 로컬 LLM 구성을 게시했습니다. 이 게시물은 엄격한 벤치마크가 아닌 일상적인 느낌을 확인하는 것이지만, Claude Code로 코딩을 위해 대규모 모델을 로컬에서 실행하는 모든 사람에게 실용적인 관찰 결과가 가득합니다.

현재 활성 모델 및 성능

GLM 5.1이 가장 큰 승자입니다. 양자화하면 최대 컨텍스트에서 약 380GB에 맞춰지며, 다른 작업을 위한 공간이 남습니다. 디코딩 속도는 약 17 t/s, 프리필은 약 190 t/s입니다. 작성자는 Claude Code를 통한 코딩에서 작업 복잡도가 6/10(10은 '브라운필드 레거시 코드베이스 + 모호한 사양')까지 신뢰할 수 있다고 말합니다. 자체 포함된 반범위 문제를 일관되게 처리하며, 계획이나 정리를 위해 가끔 API Claude의 도움을 받습니다.

Kimi K2.6은 같은 계층에 속하며 — 눈에 띄게 좋거나 나쁘지는 않습니다 — 더 큽니다. 과감하게 양자화해도 약 460GB를 사용하여 다른 실험을 위한 공간이 거의 남지 않습니다. 더 빠릅니다: 프리필은 약 220 t/s, 디코딩은 약 21 t/s입니다. 단점은 메모리 집약적인 실험을 위해 언로드해야 한다는 것입니다.

Minimax 2.7은 크기와 속도 면에서 인상적이지만, 작성자는 개발 작업에 대해 3-4/10점만 줍니다. 크기가 애매합니다 — GLM과 Kimi는 사용 가능한 코드를 제공하는 데 우세하고, 더 작은 모델은 '이 웹 검색 요약'과 같은 어시스턴트 작업에서 우세합니다. 간단한 요청에 대해 추론을 빠르게 중단합니다.

Gemma 4 31B는 실망스러웠습니다: 출시 한 달 후에도 MLX 지원이 여전히 엉망입니다. 31B 밀집 모델은 큰 MoE보다 훨씬 빠르지 않고, 공식 채팅 템플릿에는 여러 가지 해결되지 않은 버그가 있으며, 패치가 아직도 조금씩 나오고 있습니다. 작성자는 MTP/드래프트 지원이 안정화되면 다시 살펴볼 계획입니다.

Qwen 3.6 35B는 스크린샷 번역과 같은 멀티모달 작업을 위해 Qwen 3.5 9B로 대체되었습니다 — 충분히 좋고 빠르며, Claude Code의 Haiku 백그라운드 작업에서 눈에 띄는 차이 없이 처리하며 약 14GB 메모리를 절약합니다.

대기 중인 지원 및 향후 주시 사항

Deepseek 4 Flash와 Mimo 2.5 모두 아직 llama.cpp나 mlx-lm에 공식적으로 도착하지 않았습니다. 작성자는 시간이 될 때 PR을 시도할 것입니다. 두 모델의 프로 버전은 M3 Ultra에 너무 크고 느릴 것으로 예상합니다 — GLM의 40B 활성 파라미터가 대략 인내심의 한계입니다.

주목하는 프로젝트: