벤치마크 결과: Mac Mini M4 16GB에서 테스트된 331개 GGUF 모델

✍️ OpenClawRadar📅 게시일: March 26, 2026🔗 Source
벤치마크 결과: Mac Mini M4 16GB에서 테스트된 331개 GGUF 모델
Ad

로컬 배포를 위한 실용적인 옵션을 파악하기 위해 16GB 통합 메모리를 탑재한 Mac Mini M4에서 331개의 GGUF 모델을 종합적으로 벤치마크 테스트했습니다. 테스트 파이프라인은 몇 주 동안 실행되어 주관적인 선택을 넘어선 모델 평가를 자동화했습니다.

주요 발견

331개 모델 중 31개는 16GB 하드웨어에서 완전히 사용 불가능했습니다. 이는 첫 토큰까지의 시간(TTFT)이 10초를 초과하거나 처리량이 0.1 토큰/초 미만인 것으로 정의됩니다. 이 모델들은 기술적으로 로드되지만 메모리 스래싱을 경험합니다. 테스트된 모든 27B+ 밀집 모델이 이 범주에 속했으며, Qwen3.5-27B-heretic-v2-Q4_K_S가 97초 TTFT와 0.007 토큰/초로 가장 낮은 성능을 보였습니다.

모델 가중치와 KV 캐시가 약 14GB를 초과하면 성능이 '절벽에서 떨어집니다'. 14B 이상의 밀집 모델은 이 하드웨어에서 메모리 대역폭이 부족합니다.

아키텍처 비교

Mixture-of-Experts(MoE) 모델이 16GB 하드웨어에서 압도적 우위를 보입니다:

  • 중간값 토큰/초: MoE 20.0 대 밀집 4.4
  • 중간값 TTFT: MoE 0.66초 대 밀집 0.87초
  • 최대 품질 점수: MoE 50.4 대 밀집 46.2

1-3B 활성 매개변수를 가진 MoE 모델은 GPU 메모리에 적합하면서도 훨씬 더 큰 밀집 모델에 필적하는 품질을 달성합니다.

파레토 최적 모델

331개 모델 중 단 11개만이 파레토 프론티어에 위치합니다(속도와 품질 모두에서 이 모델들을 능가하는 다른 모델이 없음):

  • Ling-mini-2.0 (Q4_K_S, abliterated): 50.3 토큰/초, 24.2 품질
  • Ling-mini-2.0 (IQ4_NL): 49.8 토큰/초, 25.8 품질
  • Ling-mini-2.0 (Q3_K_L): 46.3 토큰/초, 26.2 품질
  • Ling-mini-2.0 (Q3_K_L, abliterated): 46.0 토큰/초, 28.3 품질
  • Ling-Coder-lite (IQ4_NL): 24.3 토큰/초, 29.2 품질
  • Ling-Coder-lite (Q4_0): 23.6 토큰/초, 31.3 품질
  • LFM2-8B-A1B (Q5_K_M): 19.7 토큰/초, 44.6 품질
  • LFM2-8B-A1B (Q5_K_XL): 18.9 토큰/초, 44.6 품질
  • LFM2-8B-A1B (Q8_0): 15.1 토큰/초, 46.2 품질
  • LFM2-8B-A1B (Q8_K_XL): 14.9 토큰/초, 47.9 품질
  • LFM2-8B-A1B (Q6_K_XL): 13.9 토큰/초, 50.4 품질

모든 파레토 최적 모델은 MoE 아키텍처입니다. 331개 모델 중 나머지 모든 모델은 이 11개 모델 중 하나에 의해 명백히 지배됩니다.

Ad

컨텍스트 및 동시성 성능

컨텍스트 확장은 놀랍도록 평탄한 성능을 보입니다: 중간값 토큰/초 비율(4096 대 1024 컨텍스트)은 1.0배입니다. 대부분의 모델은 1k에서 4k 컨텍스트로 갈 때 성능 저하가 없으며, 일부 MoE 모델은 4k에서 실제로 속도가 빨라집니다. 이 하드웨어에서는 4k에서도 메모리 대역폭 절벽이 아직 도달하지 않았습니다.

동시성은 순손실입니다: 동시성 2에서 요청당 처리량은 0.55배로 떨어집니다(이상적은 1.0배). 두 개의 동시 요청이 동일한 통합 메모리 버스를 두고 경쟁합니다. 16GB 하드웨어에서는 한 번에 하나의 요청을 실행하는 것이 권장됩니다.

최상위 추천

  1. LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - 전체 최고: 50.4 품질 복합 점수(331개 모델 중 최고), 13.9 토큰/초, 0.48초 TTFT. 1B 활성 매개변수를 가진 MoE - 16GB에 구조적으로 이상적입니다.
  2. LFM2-8B-A1B-Q5_K_M (unsloth) - 고품질 모델 중 최고 속도: 19.7 토큰/초(가장 빠른 LFM2 변형), 44.6 품질(최고점보다 6점 낮음). 가장 작은 양자화 = 더 긴 컨텍스트를 위한 가장 많은 여유 공간.
  3. LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - 균형 잡힌 성능 옵션.

📖 전체 원문 읽기: r/LocalLLaMA

Ad

👀 See Also

Nelson v2.2.3 출시: Claude Code를 위한 다중 에이전트 조정 및 이산 사건 시뮬레이션 벤치마크 추가
Tools

Nelson v2.2.3 출시: Claude Code를 위한 다중 에이전트 조정 및 이산 사건 시뮬레이션 벤치마크 추가

Nelson v2.2.3은 해군 비유를 사용하여 Claude Code용 다중 에이전트 협업 스킬을 제공합니다. 13개 구성의 벤치마크에서 opus-4-7이 thinking과 함께 우세했으며, 스킬 선택의 차이는 상대적으로 작았습니다.

OpenClawRadar
설치 없이 MCP 서버를 테스트할 수 있는 오픈 소스 브라우저 도구
Tools

설치 없이 MCP 서버를 테스트할 수 있는 오픈 소스 브라우저 도구

MCP Playground라는 오픈 소스 웹 도구는 개발자가 WebContainers(WASM Node.js 런타임)를 사용하여 브라우저에서 직접 MCP 서버를 테스트할 수 있게 해줍니다. 이 도구는 백엔드 설치 없이 로컬에서 npm 기반 MCP 서버를 실행하고 URL을 통해 원격 서버에 연결할 수 있습니다.

OpenClawRadar
Intuno: AI 에이전트 발견 및 통신을 위한 오픈 소스 네트워크
Tools

Intuno: AI 에이전트 발견 및 통신을 위한 오픈 소스 네트워크

Intuno는 AI 에이전트가 기능을 등록하고, 의미론적 검색을 통해 서로를 발견하며, 3줄의 Python 코드로 함수를 호출할 수 있는 오픈소스 네트워크입니다. Claude Desktop 또는 Cursor에서 사용할 수 있는 MCP 통합을 포함하고 있습니다.

OpenClawRadar
에이전트 & A.I.mpires: AI 에이전트가 플레이하고 인간이 관전하는 전략 게임
Tools

에이전트 & A.I.mpires: AI 에이전트가 플레이하고 인간이 관전하는 전략 게임

에이전트 & A.I.mpires는 육각형 격자 지구에서 진행되는 지속적인 실시간 전략 게임으로, AI 에이전트들이 자율적으로 영토를 점령하고, 공격하며, 동맹을 형성하고, HTTP API 호출을 통해 매일 전쟁 블로그를 작성합니다. 인간은 단지 나타나는 행동을 관찰할 뿐입니다.

OpenClawRadar