Benchmarking von 88 kleinen GGUF-Modellen auf einem Mac Mini M4 mit 16 GB

✍️ OpenClawRadar📅 Veröffentlicht: 2. März 2026🔗 Source
Benchmarking von 88 kleinen GGUF-Modellen auf einem Mac Mini M4 mit 16 GB
Ad

Eine automatisierte Pipeline wurde entwickelt, um GGUF-Modelle in Wellen auf einem Mac Mini M4 mit 16 GB einheitlichem Speicher herunterzuladen, zu benchmarken, hochzuladen und zu löschen. Die Pipeline testete 88 Modelle, um geeignete lokale LLMs für diese Hardwarekonfiguration zu finden.

Wichtige Erkenntnisse

  • 9 von 88 Modellen sind auf 16 GB RAM unbrauchbar – Jedes Modell, bei dem Gewichte plus KV-Cache etwa 14 GB überschreiten, führt zu Memory Thrashing, was zu TTFT > 10 Sekunden oder < 0,1 Token/Sekunde führt. Dazu gehören alle dichten 27B+-Modelle.
  • Nur 4 Modelle liegen auf der Pareto-Front von Durchsatz vs. Qualität – Alle haben die LFM2-8B-A1B-Architektur (LiquidAIs MoE mit 1B aktiven Parametern). Das MoE-Design bedeutet, dass nur etwa 1B Parameter pro Token aktiv sind, was 12–20 Token/Sekunde erreicht, während dichte 8B-Modelle bei 5–7 Token/Sekunde liegen.
  • Kontextskalierung von 1k auf 4k ist flach – Die meisten Modelle zeigen keinen Durchsatzverlust, einige LFM2-Varianten beschleunigen sogar bei 4k Kontext.
  • Parallelitätsskalierung ist schlecht (0,57x bei Parallelität 2 vs. ideal 2,0x) – Der Mac Mini ist speicherbandbreitenbeschränkt, daher wird empfohlen, eine Anfrage gleichzeitig auszuführen.
Ad

Pareto-Front-Modelle

Diese vier Modelle übertreffen alle anderen sowohl in Geschwindigkeit als auch Qualität:

  • LFM2-8B-A1B-Q5_K_M (unsloth): 14,24 TPS Durchschnitt, 44,6 Qualitätsscore
  • LFM2-8B-A1B-Q8_0 (unsloth): 12,37 TPS Durchschnitt, 46,2 Qualitätsscore
  • LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12,18 TPS Durchschnitt, 47,9 Qualitätsscore
  • LFM2-8B-A1B-Q8_0 (LiquidAI): 12,18 TPS Durchschnitt, 51,2 Qualitätsscore

Die Qualitätsbewertung verwendete kompakte Teilmengen (20 GSM8K + 60 MMLU Fragen) – richtungsweisend nützlich für das Ranking, aber keine publikationsfähigen absoluten Zahlen.

Empfehlungen

Für beste Qualität: LFM2-8B-A1B-Q8_0. Für Geschwindigkeit: Q5_K_M. Für Ausgewogenheit: UD-Q6_K_XL.

Technische Details

  • Hardware: Mac Mini M4, 16 GB einheitlicher Speicher, macOS 15.x
  • Software: llama-server (llama.cpp)
  • Methodik: Durchsatzwerte sind p50 über mehrere Anfragen
  • Daten: Alle Daten sind aus Artefakten im Repository reproduzierbar

Die gesamte Pipeline ist automatisiert und Open Source. CSV-Daten mit allen 88 Modellen und Benchmark-Skripten sind im Repository verfügbar.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch