24GB M4 Mac Mini에서 GLM-4.7-Flash 실행: Q3_K_XL 양자화 및 32k 컨텍스트

M4 하드웨어에서 GLM-4.7-Flash를 위한 실용적인 구성

24GB RAM이 탑재된 M4 Mac Mini에서 OpenClaw와 Ollama를 테스트한 개발자가 GLM-4.7-Flash 모델을 실행하기 위한 구체적인 최적화 세부 정보를 공유했습니다. 소스는 하드웨어 제약 내에서 작동하는 구체적인 메모리 할당 현실과 구성 매개변수를 제공합니다.

메모리 현실과 모델 선택

테스트 결과, M4 Mini의 효과적인 GPU 메모리 예산은 전체 24GB가 아닌 약 17.8GB Metal(GPU-wired)입니다. 나머지는 macOS, 애플리케이션 및 CPU 컴퓨팅에 의해 소비됩니다. 이 제한은 모델 선택과 컨텍스트 크기에 영향을 미칩니다.

Q4_K_XL 양자화(17.5GB GGUF)는 32k 컨텍스트를 처리할 수 없음: 모델(14.4GB) + KV(2.8GB) + 컴퓨팅(1.4GB) = 18.6GB → 메모리 부족
Q3_K_XL 양자화(13.8GB GGUF)는 32k 컨텍스트에서 작동: 모델(12.7GB) + KV(3.2GB) + 컴퓨팅(1.4GB) = 16.1GB, 1.7GB의 여유 공간 있음
메모리 부족이 발생하기 전 컨텍스트 상한선은 약 34k입니다

구성 세부 정보

성공적인 설정은 다음을 사용합니다:

모델: Hugging Face의 unsloth/GLM-4.7-Flash-GGUF
양자화: Q3_K_XL
컨텍스트 크기: MLA(Multi-Head Latent Attention)를 사용한 32k
KV 캐시 구현: GGUF 메타데이터(key_length_mla, kv_lora_rank)에 의해 트리거되는 llama.cpp의 v-less KV 캐시(PR #19067, 2026년 1월)
빌드 요구 사항: llama.cpp b7860+

MLA 구현은 KV 메모리 사용량을 크게 줄입니다 - 32k 컨텍스트 KV 캐시는 13GB 대신 3.2GB에 불과합니다.

프레임워크별 고려 사항

OpenClaw와 같은 에이전트 프레임워크는 성능에 영향을 미치는 내부 컨텍스트 임계값을 가지고 있습니다:

OpenClaw는 32k 컨텍스트 미만에서 공격적인 압축을 트리거합니다
컨텍스트를 20k에서 32k로 증가시키면 시작 시간이 5분에서 2분 17초로 감소했습니다
num_ctx를 프레임워크 임계값과 일치시킬 때 압축 패스가 2에서 1로 떨어졌습니다
num_ctx는 Ollama Modelfile에 포함되어야 합니다 - OpenClaw 및 Ollama의 OpenAI 호환 API를 사용하는 다른 오케스트레이터는 요청 수준에서 이를 무시합니다

성능 테스트 데이터

개발자는 다양한 작업에 대한 구체적인 타이밍 데이터를 제공했습니다:

작업                     시간   입력 토큰  압축 횟수  결과
성격 소개                119s   ~13,900      2            ✅
프로필 회상               60s    13,247       2            ✅ (주의 사항 있음)
작업 생성                61s    13,375       2            ✅
메모리 쓰기              165s   14,448       2            ✅
메모리 회상              89s    14,085       2            ✅
웹 검색 + 합성          273s   18,668       2            ✅