88 GGUF Modelle auf Mac Mini M4: Benchmark Ergebnisse

Eine automatisierte Pipeline wurde entwickelt, um GGUF-Modelle in Wellen auf einem Mac Mini M4 mit 16 GB einheitlichem Speicher herunterzuladen, zu benchmarken, hochzuladen und zu löschen. Die Pipeline testete 88 Modelle, um geeignete lokale LLMs für diese Hardwarekonfiguration zu finden.

Wichtige Erkenntnisse

9 von 88 Modellen sind auf 16 GB RAM unbrauchbar – Jedes Modell, bei dem Gewichte plus KV-Cache etwa 14 GB überschreiten, führt zu Memory Thrashing, was zu TTFT > 10 Sekunden oder < 0,1 Token/Sekunde führt. Dazu gehören alle dichten 27B+-Modelle.
Nur 4 Modelle liegen auf der Pareto-Front von Durchsatz vs. Qualität – Alle haben die LFM2-8B-A1B-Architektur (LiquidAIs MoE mit 1B aktiven Parametern). Das MoE-Design bedeutet, dass nur etwa 1B Parameter pro Token aktiv sind, was 12–20 Token/Sekunde erreicht, während dichte 8B-Modelle bei 5–7 Token/Sekunde liegen.
Kontextskalierung von 1k auf 4k ist flach – Die meisten Modelle zeigen keinen Durchsatzverlust, einige LFM2-Varianten beschleunigen sogar bei 4k Kontext.
Parallelitätsskalierung ist schlecht (0,57x bei Parallelität 2 vs. ideal 2,0x) – Der Mac Mini ist speicherbandbreitenbeschränkt, daher wird empfohlen, eine Anfrage gleichzeitig auszuführen.

Pareto-Front-Modelle

Diese vier Modelle übertreffen alle anderen sowohl in Geschwindigkeit als auch Qualität:

LFM2-8B-A1B-Q5_K_M (unsloth): 14,24 TPS Durchschnitt, 44,6 Qualitätsscore
LFM2-8B-A1B-Q8_0 (unsloth): 12,37 TPS Durchschnitt, 46,2 Qualitätsscore
LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12,18 TPS Durchschnitt, 47,9 Qualitätsscore
LFM2-8B-A1B-Q8_0 (LiquidAI): 12,18 TPS Durchschnitt, 51,2 Qualitätsscore

Die Qualitätsbewertung verwendete kompakte Teilmengen (20 GSM8K + 60 MMLU Fragen) – richtungsweisend nützlich für das Ranking, aber keine publikationsfähigen absoluten Zahlen.