Mac Studio 로컬 LLM 설정: GLM 5.1, Kimi K2.6, 그리고 Claude Code로 코딩 시 효과적인 방법

✍️ OpenClawRadar📅 게시일: May 7, 2026🔗 Source
Mac Studio 로컬 LLM 설정: GLM 5.1, Kimi K2.6, 그리고 Claude Code로 코딩 시 효과적인 방법
Ad

r/LocalLLaMA에서 사용자 ezyz가 2026년 5월 기준, 512GB 통합 메모리를 탑재한 M3 Ultra에서 실행 중인 Mac Studio 로컬 LLM 구성을 게시했습니다. 이 게시물은 엄격한 벤치마크가 아닌 일상적인 느낌을 확인하는 것이지만, Claude Code로 코딩을 위해 대규모 모델을 로컬에서 실행하는 모든 사람에게 실용적인 관찰 결과가 가득합니다.

현재 활성 모델 및 성능

GLM 5.1이 가장 큰 승자입니다. 양자화하면 최대 컨텍스트에서 약 380GB에 맞춰지며, 다른 작업을 위한 공간이 남습니다. 디코딩 속도는 약 17 t/s, 프리필은 약 190 t/s입니다. 작성자는 Claude Code를 통한 코딩에서 작업 복잡도가 6/10(10은 '브라운필드 레거시 코드베이스 + 모호한 사양')까지 신뢰할 수 있다고 말합니다. 자체 포함된 반범위 문제를 일관되게 처리하며, 계획이나 정리를 위해 가끔 API Claude의 도움을 받습니다.

Kimi K2.6은 같은 계층에 속하며 — 눈에 띄게 좋거나 나쁘지는 않습니다 — 더 큽니다. 과감하게 양자화해도 약 460GB를 사용하여 다른 실험을 위한 공간이 거의 남지 않습니다. 더 빠릅니다: 프리필은 약 220 t/s, 디코딩은 약 21 t/s입니다. 단점은 메모리 집약적인 실험을 위해 언로드해야 한다는 것입니다.

Minimax 2.7은 크기와 속도 면에서 인상적이지만, 작성자는 개발 작업에 대해 3-4/10점만 줍니다. 크기가 애매합니다 — GLM과 Kimi는 사용 가능한 코드를 제공하는 데 우세하고, 더 작은 모델은 '이 웹 검색 요약'과 같은 어시스턴트 작업에서 우세합니다. 간단한 요청에 대해 추론을 빠르게 중단합니다.

Gemma 4 31B는 실망스러웠습니다: 출시 한 달 후에도 MLX 지원이 여전히 엉망입니다. 31B 밀집 모델은 큰 MoE보다 훨씬 빠르지 않고, 공식 채팅 템플릿에는 여러 가지 해결되지 않은 버그가 있으며, 패치가 아직도 조금씩 나오고 있습니다. 작성자는 MTP/드래프트 지원이 안정화되면 다시 살펴볼 계획입니다.

Qwen 3.6 35B는 스크린샷 번역과 같은 멀티모달 작업을 위해 Qwen 3.5 9B로 대체되었습니다 — 충분히 좋고 빠르며, Claude Code의 Haiku 백그라운드 작업에서 눈에 띄는 차이 없이 처리하며 약 14GB 메모리를 절약합니다.

Ad

대기 중인 지원 및 향후 주시 사항

Deepseek 4 Flash와 Mimo 2.5 모두 아직 llama.cpp나 mlx-lm에 공식적으로 도착하지 않았습니다. 작성자는 시간이 될 때 PR을 시도할 것입니다. 두 모델의 프로 버전은 M3 Ultra에 너무 크고 느릴 것으로 예상합니다 — GLM의 40B 활성 파라미터가 대략 인내심의 한계입니다.

주목하는 프로젝트:

  • Mac + NVIDIA 클러스터링 및 분리형 프리필을 위한 Exo와 tinygrad
  • Stable Dflash / DDtree / MTP 지원
  • 새로운 양자화 형식(paroquant, JANGTQ) — llama.cpp PR #21038 참조
  • 로컬 음악 생성 — Ace Step 1.5는 '거의 좋지만' 음성은 아직 부족합니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

OpenClaw, Neon, Resend로 구축된 자동화된 콜드 이메일 시스템
Use Cases

OpenClaw, Neon, Resend로 구축된 자동화된 콜드 이메일 시스템

한 개발자가 OpenClaw를 오케스트레이션 AI 에이전트로, Neon을 서버리스 Postgres로, Resend를 이메일 API로 사용하여 완전 자동화된 콜드 이메일 시스템을 구축했습니다. 이 시스템은 5000건 이상의 이메일을 발송했으며 리드 추적, 자동 발송, 답장 감지, iMessage를 통한 알림을 관리합니다.

OpenClawRadar
클로드 하이쿠 4.5의 버그 수정 효과는 프롬프트 품질에 크게 좌우된다는 것이 사용자 테스트를 통해 확인되었습니다.
Use Cases

클로드 하이쿠 4.5의 버그 수정 효과는 프롬프트 품질에 크게 좌우된다는 것이 사용자 테스트를 통해 확인되었습니다.

실제 운영 환경 버그에 대한 380명의 사용자 테스트 결과, 적절한 문맥이 주어지면 Claude Haiku 4.5가 버그를 효과적으로 수정할 수 있음을 보여주지만, 사용자가 문제를 얼마나 잘 설명하는지에 따라 결과가 크게 달라집니다.

OpenClawRadar
AI 에이전트가 운영하는 완전한 전자상거래 운영: 내부 보고서
Use Cases

AI 에이전트가 운영하는 완전한 전자상거래 운영: 내부 보고서

AI 에이전트가 디자인, 코딩, 마케팅, 운영을 포함한 완전한 전자상거래 비즈니스를 운영하고 있습니다. 소스는 무엇이 작동하지 않는지 포함한 솔직한 평가를 제공합니다.

OpenClawRadar
개발자가 Claude 기술로 자가 개선 LinkedIn 콘텐츠 시스템 구축
Use Cases

개발자가 Claude 기술로 자가 개선 LinkedIn 콘텐츠 시스템 구축

프리랜서 B2B 마케터가 링크드인 콘텐츠를 위해 자신의 어조로 작성하고 성과 데이터에 따라 개선되는 두 가지 스킬로 구성된 Claude 시스템을 만들어, 일주일 동안 3개의 게시물로 총 110K 노출을 달성했습니다.

OpenClawRadar