Benchmarking von 88 kleinen GGUF-Modellen auf einem Mac Mini M4 mit 16 GB

Eine automatisierte Pipeline wurde entwickelt, um GGUF-Modelle in Wellen auf einem Mac Mini M4 mit 16 GB einheitlichem Speicher herunterzuladen, zu benchmarken, hochzuladen und zu löschen. Die Pipeline testete 88 Modelle, um geeignete lokale LLMs für diese Hardwarekonfiguration zu finden.
Wichtige Erkenntnisse
- 9 von 88 Modellen sind auf 16 GB RAM unbrauchbar – Jedes Modell, bei dem Gewichte plus KV-Cache etwa 14 GB überschreiten, führt zu Memory Thrashing, was zu TTFT > 10 Sekunden oder < 0,1 Token/Sekunde führt. Dazu gehören alle dichten 27B+-Modelle.
- Nur 4 Modelle liegen auf der Pareto-Front von Durchsatz vs. Qualität – Alle haben die LFM2-8B-A1B-Architektur (LiquidAIs MoE mit 1B aktiven Parametern). Das MoE-Design bedeutet, dass nur etwa 1B Parameter pro Token aktiv sind, was 12–20 Token/Sekunde erreicht, während dichte 8B-Modelle bei 5–7 Token/Sekunde liegen.
- Kontextskalierung von 1k auf 4k ist flach – Die meisten Modelle zeigen keinen Durchsatzverlust, einige LFM2-Varianten beschleunigen sogar bei 4k Kontext.
- Parallelitätsskalierung ist schlecht (0,57x bei Parallelität 2 vs. ideal 2,0x) – Der Mac Mini ist speicherbandbreitenbeschränkt, daher wird empfohlen, eine Anfrage gleichzeitig auszuführen.
Pareto-Front-Modelle
Diese vier Modelle übertreffen alle anderen sowohl in Geschwindigkeit als auch Qualität:
- LFM2-8B-A1B-Q5_K_M (unsloth): 14,24 TPS Durchschnitt, 44,6 Qualitätsscore
- LFM2-8B-A1B-Q8_0 (unsloth): 12,37 TPS Durchschnitt, 46,2 Qualitätsscore
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth): 12,18 TPS Durchschnitt, 47,9 Qualitätsscore
- LFM2-8B-A1B-Q8_0 (LiquidAI): 12,18 TPS Durchschnitt, 51,2 Qualitätsscore
Die Qualitätsbewertung verwendete kompakte Teilmengen (20 GSM8K + 60 MMLU Fragen) – richtungsweisend nützlich für das Ranking, aber keine publikationsfähigen absoluten Zahlen.
Empfehlungen
Für beste Qualität: LFM2-8B-A1B-Q8_0. Für Geschwindigkeit: Q5_K_M. Für Ausgewogenheit: UD-Q6_K_XL.
Technische Details
- Hardware: Mac Mini M4, 16 GB einheitlicher Speicher, macOS 15.x
- Software: llama-server (llama.cpp)
- Methodik: Durchsatzwerte sind p50 über mehrere Anfragen
- Daten: Alle Daten sind aus Artefakten im Repository reproduzierbar
Die gesamte Pipeline ist automatisiert und Open Source. CSV-Daten mit allen 88 Modellen und Benchmark-Skripten sind im Repository verfügbar.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

MCP ermöglicht Claude die automatische Analyse von Google Search Console-Daten
Ein neuer kostenloser MCP verbindet Claude direkt mit der Google Search Console und ermöglicht Abfragen in natürlicher Sprache zu Suchleistungsdaten wie Suchbegriffe, Seiten, Klicks und CTR – ohne manuelle CSV-Exporte.

Claude IDE Bridge: MCP-Tool für Remote-Editor-Zugriff
Claude IDE Bridge ist ein Open-Source-Tool, das Claude AI über MCP (Model Context Protocol) Fernsteuerungszugriff auf Code-Editoren ermöglicht. Es stellt Editor-Wissen wie Live-Typinformationen und Debugger-Status als aufrufbare Werkzeuge zur Verfügung.

Unternehmen, die Stellen streichen, um KI einzusetzen, werden gegen die verlieren, die es nicht taten
KI-bedingte Stellenkürzungen opfern langfristiges institutionswissen für kurzfristige Einsparungen. Teams zu behalten und KI zu nutzen, um ihre Leistung zu steigern, ist die Gewinnerstrategie.

MCP-Server fügt Claude Code persistenten Speicher mit Abruf-Bewertung hinzu
Ein Entwickler hat einen MCP-Server namens engram-mcp erstellt, der Claude Code persistenten Speicher über Sitzungen und Projekte hinweg ermöglicht, mit automatischer Abrufbewertung basierend auf Erfolgsergebnissen und Erkennung von Wissensverfall.