Mac Mini M4 16GB GGUF 벤치마크: 331개 모델 결과

로컬 배포를 위한 실용적인 옵션을 파악하기 위해 16GB 통합 메모리를 탑재한 Mac Mini M4에서 331개의 GGUF 모델을 종합적으로 벤치마크 테스트했습니다. 테스트 파이프라인은 몇 주 동안 실행되어 주관적인 선택을 넘어선 모델 평가를 자동화했습니다.

주요 발견

331개 모델 중 31개는 16GB 하드웨어에서 완전히 사용 불가능했습니다. 이는 첫 토큰까지의 시간(TTFT)이 10초를 초과하거나 처리량이 0.1 토큰/초 미만인 것으로 정의됩니다. 이 모델들은 기술적으로 로드되지만 메모리 스래싱을 경험합니다. 테스트된 모든 27B+ 밀집 모델이 이 범주에 속했으며, Qwen3.5-27B-heretic-v2-Q4_K_S가 97초 TTFT와 0.007 토큰/초로 가장 낮은 성능을 보였습니다.

모델 가중치와 KV 캐시가 약 14GB를 초과하면 성능이 '절벽에서 떨어집니다'. 14B 이상의 밀집 모델은 이 하드웨어에서 메모리 대역폭이 부족합니다.

아키텍처 비교

Mixture-of-Experts(MoE) 모델이 16GB 하드웨어에서 압도적 우위를 보입니다:

중간값 토큰/초: MoE 20.0 대 밀집 4.4
중간값 TTFT: MoE 0.66초 대 밀집 0.87초
최대 품질 점수: MoE 50.4 대 밀집 46.2

1-3B 활성 매개변수를 가진 MoE 모델은 GPU 메모리에 적합하면서도 훨씬 더 큰 밀집 모델에 필적하는 품질을 달성합니다.

파레토 최적 모델

331개 모델 중 단 11개만이 파레토 프론티어에 위치합니다(속도와 품질 모두에서 이 모델들을 능가하는 다른 모델이 없음):

Ling-mini-2.0 (Q4_K_S, abliterated): 50.3 토큰/초, 24.2 품질
Ling-mini-2.0 (IQ4_NL): 49.8 토큰/초, 25.8 품질
Ling-mini-2.0 (Q3_K_L): 46.3 토큰/초, 26.2 품질
Ling-mini-2.0 (Q3_K_L, abliterated): 46.0 토큰/초, 28.3 품질
Ling-Coder-lite (IQ4_NL): 24.3 토큰/초, 29.2 품질
Ling-Coder-lite (Q4_0): 23.6 토큰/초, 31.3 품질
LFM2-8B-A1B (Q5_K_M): 19.7 토큰/초, 44.6 품질
LFM2-8B-A1B (Q5_K_XL): 18.9 토큰/초, 44.6 품질
LFM2-8B-A1B (Q8_0): 15.1 토큰/초, 46.2 품질
LFM2-8B-A1B (Q8_K_XL): 14.9 토큰/초, 47.9 품질
LFM2-8B-A1B (Q6_K_XL): 13.9 토큰/초, 50.4 품질

모든 파레토 최적 모델은 MoE 아키텍처입니다. 331개 모델 중 나머지 모든 모델은 이 11개 모델 중 하나에 의해 명백히 지배됩니다.

컨텍스트 및 동시성 성능

컨텍스트 확장은 놀랍도록 평탄한 성능을 보입니다: 중간값 토큰/초 비율(4096 대 1024 컨텍스트)은 1.0배입니다. 대부분의 모델은 1k에서 4k 컨텍스트로 갈 때 성능 저하가 없으며, 일부 MoE 모델은 4k에서 실제로 속도가 빨라집니다. 이 하드웨어에서는 4k에서도 메모리 대역폭 절벽이 아직 도달하지 않았습니다.

동시성은 순손실입니다: 동시성 2에서 요청당 처리량은 0.55배로 떨어집니다(이상적은 1.0배). 두 개의 동시 요청이 동일한 통합 메모리 버스를 두고 경쟁합니다. 16GB 하드웨어에서는 한 번에 하나의 요청을 실행하는 것이 권장됩니다.

최상위 추천

LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - 전체 최고: 50.4 품질 복합 점수(331개 모델 중 최고), 13.9 토큰/초, 0.48초 TTFT. 1B 활성 매개변수를 가진 MoE - 16GB에 구조적으로 이상적입니다.
LFM2-8B-A1B-Q5_K_M (unsloth) - 고품질 모델 중 최고 속도: 19.7 토큰/초(가장 빠른 LFM2 변형), 44.6 품질(최고점보다 6점 낮음). 가장 작은 양자화 = 더 긴 컨텍스트를 위한 가장 많은 여유 공간.
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - 균형 잡힌 성능 옵션.

📖 전체 원문 읽기: r/LocalLLaMA