88개 GGUF 모델 벤치마크: Mac Mini M4 16GB 성능 결과

Mac Mini M4(16GB 통합 메모리)에서 GGUF 모델을 일괄 다운로드, 벤치마킹, 업로드, 삭제하는 자동화 파이프라인이 개발되었습니다. 이 파이프라인은 해당 하드웨어 구성에 적합한 로컬 LLM을 찾기 위해 88개 모델을 테스트했습니다.

주요 발견 사항

88개 모델 중 9개는 16GB RAM에서 사용 불가능 - 가중치와 KV 캐시 합계가 약 14GB를 초과하는 모든 모델은 메모리 스래싱을 유발하여 TTFT > 10초 또는 < 0.1 토큰/초의 성능을 보입니다. 여기에는 모든 고밀도 27B+ 모델이 포함됩니다.
처리량 대 품질의 파레토 최적선에 위치한 모델은 4개뿐 - 모두 LFM2-8B-A1B 아키텍처(LiquidAI의 MoE, 1B 활성 파라미터)입니다. MoE 설계는 토큰당 약 1B 파라미터만 활성화되어 12-20 토큰/초를 달성하는 반면, 고밀도 8B 모델은 5-7 토큰/초에 그칩니다.
1k에서 4k로의 컨텍스트 확장은 평탄함 - 대부분의 모델은 처리량 저하가 전혀 없으며, 일부 LFM2 변형은 4k 컨텍스트에서 실제로 속도가 빨라집니다.
동시성 확장은 미흡함(동시성 2 대비 0.57x, 이상적 2.0x) - Mac Mini는 메모리 대역폭에 제한을 받으므로 한 번에 하나의 요청을 실행하는 것이 권장됩니다.

다음 네 모델은 속도와 품질 모두에서 다른 모든 모델을 능가합니다:

품질 평가는 간소화된 부분 집합(20 GSM8K + 60 MMLU 질문)을 사용했습니다 - 순위 매기기에 방향적으로 유용하지만 출판 등급의 절대 수치는 아닙니다.

최고 품질: LFM2-8B-A1B-Q8_0. 속도: Q5_K_M. 균형: UD-Q6_K_XL.

전체 파이프라인은 자동화되어 오픈 소스입니다. 88개 모델의 CSV 데이터와 벤치마크 스크립트는 저장소에서 이용 가능합니다.

📖 전체 출처 읽기: r/LocalLLaMA