331 GGUF-Modelle auf Mac Mini M4: Nur 11 Pareto-optimale

Ein umfassender Benchmark testete 331 GGUF-Modelle auf einem Mac Mini M4 mit 16 GB Unified Memory, um praktikable Optionen für den lokalen Einsatz zu identifizieren. Die Testpipeline lief wochenlang und automatisierte die Modellbewertung, um über subjektive Auswahl hinauszugehen.

Wesentliche Erkenntnisse

31 von 331 Modellen waren auf der 16-GB-Hardware völlig unbrauchbar, definiert durch Time-to-First-Token (TTFT) > 10 Sekunden oder Durchsatz < 0,1 Token/Sekunde. Diese Modelle laden technisch gesehen, erleben aber Memory Thrashing. Jedes getestete dichte Modell mit 27B+ fiel in diese Kategorie, wobei Qwen3.5-27B-heretic-v2-Q4_K_S mit 97 Sekunden TTFT und 0,007 Token/Sekunde am schlechtesten abschnitt.

Wenn Modellgewichte plus KV-Cache etwa 14 GB überschreiten, bricht die Leistung "ab". Dichte Modelle über 14B sind auf dieser Hardware speicherbandbreitenbeschränkt.

Architekturvergleich

Mixture-of-Experts (MoE)-Modelle dominieren auf 16-GB-Hardware:

Median Token/Sekunde: MoE 20,0 vs. Dicht 4,4
Median TTFT: MoE 0,66s vs. Dicht 0,87s
Maximale Qualitätsbewertung: MoE 50,4 vs. Dicht 46,2

MoE-Modelle mit 1-3B aktiven Parametern passen in den GPU-Speicher und erreichen dabei eine Qualität, die mit viel größeren dichten Modellen vergleichbar ist.

Pareto-optimale Modelle

Nur 11 Modelle von 331 liegen auf der Pareto-Front (kein anderes Modell übertrifft sie sowohl in Geschwindigkeit als auch Qualität):

Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 Tok/s, 24,2 Qualität
Ling-mini-2.0 (IQ4_NL): 49,8 Tok/s, 25,8 Qualität
Ling-mini-2.0 (Q3_K_L): 46,3 Tok/s, 26,2 Qualität
Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 Tok/s, 28,3 Qualität
Ling-Coder-lite (IQ4_NL): 24,3 Tok/s, 29,2 Qualität
Ling-Coder-lite (Q4_0): 23,6 Tok/s, 31,3 Qualität
LFM2-8B-A1B (Q5_K_M): 19,7 Tok/s, 44,6 Qualität
LFM2-8B-A1B (Q5_K_XL): 18,9 Tok/s, 44,6 Qualität
LFM2-8B-A1B (Q8_0): 15,1 Tok/s, 46,2 Qualität
LFM2-8B-A1B (Q8_K_XL): 14,9 Tok/s, 47,9 Qualität
LFM2-8B-A1B (Q6_K_XL): 13,9 Tok/s, 50,4 Qualität

Jedes einzelne Pareto-optimale Modell ist eine MoE-Architektur. Jedes andere Modell der 331 wird von einem dieser elf strikt dominiert.

Kontext- und Nebenläufigkeitsleistung

Die Kontextskalierung zeigt überraschend flache Leistung: Das Median-Token/Sekunde-Verhältnis (4096 vs. 1024 Kontext) beträgt 1,0x. Die meisten Modelle zeigen keine Verschlechterung beim Übergang von 1k zu 4k Kontext, wobei einige MoE-Modelle bei 4k sogar schneller werden. Die Speicherbandbreitengrenze wurde bei 4k auf dieser Hardware noch nicht erreicht.

Nebenläufigkeit ist ein Nettoverlust: Bei Nebenläufigkeit 2 sinkt der Durchsatz pro Anfrage auf 0,55x (ideal wäre 1,0x). Zwei gleichzeitige Anfragen konkurrieren um denselben Unified-Memory-Bus. Die Empfehlung lautet, auf 16-GB-Hardware jeweils eine Anfrage gleichzeitig auszuführen.

Top-Empfehlungen

LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Bestes Gesamtmodell: 50,4 Qualitätskomposit (höchste aller 331 Modelle), 13,9 Token/Sekunde, 0,48s TTFT. MoE mit 1B aktiven Parametern - architektonisch ideal für 16 GB.
LFM2-8B-A1B-Q5_K_M (unsloth) - Beste Geschwindigkeit unter Qualitätsmodellen: 19,7 Token/Sekunde (schnellste LFM2-Variante), 44,6 Qualität (nur 6 Punkte unter dem Spitzenwert). Kleinste Quantisierung = größter Spielraum für längere Kontexte.
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Ausgewogene Leistungsoption.

📖 Read the full source: r/LocalLLaMA