16GB Mac Mini M4에서 88개의 소형 GGUF 모델 벤치마킹

Mac Mini M4(16GB 통합 메모리)에서 GGUF 모델을 일괄 다운로드, 벤치마킹, 업로드, 삭제하는 자동화 파이프라인이 개발되었습니다. 이 파이프라인은 해당 하드웨어 구성에 적합한 로컬 LLM을 찾기 위해 88개 모델을 테스트했습니다.
주요 발견 사항
- 88개 모델 중 9개는 16GB RAM에서 사용 불가능 - 가중치와 KV 캐시 합계가 약 14GB를 초과하는 모든 모델은 메모리 스래싱을 유발하여 TTFT > 10초 또는 < 0.1 토큰/초의 성능을 보입니다. 여기에는 모든 고밀도 27B+ 모델이 포함됩니다.
- 처리량 대 품질의 파레토 최적선에 위치한 모델은 4개뿐 - 모두 LFM2-8B-A1B 아키텍처(LiquidAI의 MoE, 1B 활성 파라미터)입니다. MoE 설계는 토큰당 약 1B 파라미터만 활성화되어 12-20 토큰/초를 달성하는 반면, 고밀도 8B 모델은 5-7 토큰/초에 그칩니다.
- 1k에서 4k로의 컨텍스트 확장은 평탄함 - 대부분의 모델은 처리량 저하가 전혀 없으며, 일부 LFM2 변형은 4k 컨텍스트에서 실제로 속도가 빨라집니다.
- 동시성 확장은 미흡함(동시성 2 대비 0.57x, 이상적 2.0x) - Mac Mini는 메모리 대역폭에 제한을 받으므로 한 번에 하나의 요청을 실행하는 것이 권장됩니다.
파레토 최적선 모델
다음 네 모델은 속도와 품질 모두에서 다른 모든 모델을 능가합니다:
- LFM2-8B-A1B-Q5_K_M (unsloth): 평균 14.24 TPS, 품질 점수 44.6
- LFM2-8B-A1B-Q8_0 (unsloth): 평균 12.37 TPS, 품질 점수 46.2
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 평균 12.18 TPS, 품질 점수 47.9
- LFM2-8B-A1B-Q8_0 (LiquidAI): 평균 12.18 TPS, 품질 점수 51.2
품질 평가는 간소화된 부분 집합(20 GSM8K + 60 MMLU 질문)을 사용했습니다 - 순위 매기기에 방향적으로 유용하지만 출판 등급의 절대 수치는 아닙니다.
권장 사항
최고 품질: LFM2-8B-A1B-Q8_0. 속도: Q5_K_M. 균형: UD-Q6_K_XL.
기술적 세부 사항
- 하드웨어: Mac Mini M4, 16GB 통합 메모리, macOS 15.x
- 소프트웨어: llama-server (llama.cpp)
- 방법론: 처리량 수치는 여러 요청에 대한 p50입니다
- 데이터: 모든 데이터는 저장소의 아티팩트에서 재현 가능합니다
전체 파이프라인은 자동화되어 오픈 소스입니다. 88개 모델의 CSV 데이터와 벤치마크 스크립트는 저장소에서 이용 가능합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

OpenClaw PARA 기술은 Tiago Forte의 방법을 사용하여 파일을 자동으로 정리합니다.
한 개발자가 Tiago Forte가 개발한 PARA 방법을 사용하여 파일을 자동으로 정리하는 OpenClaw용 스킬을 오픈소스로 공개했습니다. 이 스킬은 파일, 보고서, 스크립트가 뒤섞여 전혀 정리되지 않은 지저분한 루트 디렉토리 문제를 해결합니다.

Memorine: Python과 SQLite를 사용한 OpenClaw 에이전트를 위한 로컬 메모리 시스템
Memorine은 Python과 SQLite만 사용하는 OpenClaw 에이전트용 로컬 메모리 시스템으로, 외부 종속성, API 호출 또는 원격 측정이 필요하지 않습니다. 사실 저장, 전체 텍스트 검색, 메모리 감소, 모순 감지, 인과적 이벤트 체인, 그리고 fastembed와 sqlite-vec를 통한 선택적 의미 검색을 제공합니다.

레딧 사용자가 허미스 AI 에이전트의 자가 학습 기능을 테스트하고 치명적 결함 발견
레딧 사용자가 마크다운 파일에서 자동으로 스킬을 생성하는 Hermes AI 에이전트의 자가 학습 기능을 테스트했습니다. 사용자는 출력이 잘못된 경우에도 항상 자신의 결과를 성공적으로 평가하고, 수동 편집을 덮어쓰는 것을 발견했습니다.

Agentlint: 모든 PR에서 CLAUDE.md 모순과 깨진 포인터를 잡아내는 GitHub 앱
Agentlint은 모든 PR에서 전체 에이전트 규칙 표면(CLAUDE.md, AGENTS.md, skills, hooks)을 감사하고 모순, 끊어진 경로, 지원되지 않는 하네스 기능에 대해 인라인 댓글을 게시하는 GitHub 앱입니다. 퍼블릭 리포지토리에서 무료입니다.