Benchmark-Ergebnisse: 331 GGUF-Modelle auf Mac Mini M4 16GB getestet

Ein umfassender Benchmark testete 331 GGUF-Modelle auf einem Mac Mini M4 mit 16 GB Unified Memory, um praktikable Optionen für den lokalen Einsatz zu identifizieren. Die Testpipeline lief wochenlang und automatisierte die Modellbewertung, um über subjektive Auswahl hinauszugehen.
Wesentliche Erkenntnisse
31 von 331 Modellen waren auf der 16-GB-Hardware völlig unbrauchbar, definiert durch Time-to-First-Token (TTFT) > 10 Sekunden oder Durchsatz < 0,1 Token/Sekunde. Diese Modelle laden technisch gesehen, erleben aber Memory Thrashing. Jedes getestete dichte Modell mit 27B+ fiel in diese Kategorie, wobei Qwen3.5-27B-heretic-v2-Q4_K_S mit 97 Sekunden TTFT und 0,007 Token/Sekunde am schlechtesten abschnitt.
Wenn Modellgewichte plus KV-Cache etwa 14 GB überschreiten, bricht die Leistung "ab". Dichte Modelle über 14B sind auf dieser Hardware speicherbandbreitenbeschränkt.
Architekturvergleich
Mixture-of-Experts (MoE)-Modelle dominieren auf 16-GB-Hardware:
- Median Token/Sekunde: MoE 20,0 vs. Dicht 4,4
- Median TTFT: MoE 0,66s vs. Dicht 0,87s
- Maximale Qualitätsbewertung: MoE 50,4 vs. Dicht 46,2
MoE-Modelle mit 1-3B aktiven Parametern passen in den GPU-Speicher und erreichen dabei eine Qualität, die mit viel größeren dichten Modellen vergleichbar ist.
Pareto-optimale Modelle
Nur 11 Modelle von 331 liegen auf der Pareto-Front (kein anderes Modell übertrifft sie sowohl in Geschwindigkeit als auch Qualität):
- Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 Tok/s, 24,2 Qualität
- Ling-mini-2.0 (IQ4_NL): 49,8 Tok/s, 25,8 Qualität
- Ling-mini-2.0 (Q3_K_L): 46,3 Tok/s, 26,2 Qualität
- Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 Tok/s, 28,3 Qualität
- Ling-Coder-lite (IQ4_NL): 24,3 Tok/s, 29,2 Qualität
- Ling-Coder-lite (Q4_0): 23,6 Tok/s, 31,3 Qualität
- LFM2-8B-A1B (Q5_K_M): 19,7 Tok/s, 44,6 Qualität
- LFM2-8B-A1B (Q5_K_XL): 18,9 Tok/s, 44,6 Qualität
- LFM2-8B-A1B (Q8_0): 15,1 Tok/s, 46,2 Qualität
- LFM2-8B-A1B (Q8_K_XL): 14,9 Tok/s, 47,9 Qualität
- LFM2-8B-A1B (Q6_K_XL): 13,9 Tok/s, 50,4 Qualität
Jedes einzelne Pareto-optimale Modell ist eine MoE-Architektur. Jedes andere Modell der 331 wird von einem dieser elf strikt dominiert.
Kontext- und Nebenläufigkeitsleistung
Die Kontextskalierung zeigt überraschend flache Leistung: Das Median-Token/Sekunde-Verhältnis (4096 vs. 1024 Kontext) beträgt 1,0x. Die meisten Modelle zeigen keine Verschlechterung beim Übergang von 1k zu 4k Kontext, wobei einige MoE-Modelle bei 4k sogar schneller werden. Die Speicherbandbreitengrenze wurde bei 4k auf dieser Hardware noch nicht erreicht.
Nebenläufigkeit ist ein Nettoverlust: Bei Nebenläufigkeit 2 sinkt der Durchsatz pro Anfrage auf 0,55x (ideal wäre 1,0x). Zwei gleichzeitige Anfragen konkurrieren um denselben Unified-Memory-Bus. Die Empfehlung lautet, auf 16-GB-Hardware jeweils eine Anfrage gleichzeitig auszuführen.
Top-Empfehlungen
- LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Bestes Gesamtmodell: 50,4 Qualitätskomposit (höchste aller 331 Modelle), 13,9 Token/Sekunde, 0,48s TTFT. MoE mit 1B aktiven Parametern - architektonisch ideal für 16 GB.
- LFM2-8B-A1B-Q5_K_M (unsloth) - Beste Geschwindigkeit unter Qualitätsmodellen: 19,7 Token/Sekunde (schnellste LFM2-Variante), 44,6 Qualität (nur 6 Punkte unter dem Spitzenwert). Kleinste Quantisierung = größter Spielraum für längere Kontexte.
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Ausgewogene Leistungsoption.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

md-redline: GUI-Tool zur Überprüfung und Übergabe von Markdown-Dokumenten an Claude
md-redline ist ein Open-Source-Tool, mit dem Sie Markdown-Dateien in einer GUI öffnen, Inline-Kommentare als HTML-Marker in der .md-Datei speichern und dann an Claude zur Aktualisierung übergeben können. Es läuft lokal ohne Konto, Cloud oder Datenbank.

OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen
Ein Entwickler testete mehrere KI-Modelle mit OpenClaw und fand heraus, dass Codex 5.3 mit einer Bewertung von 9/10 am besten abschneidet, während GLM 4.7 und GLM 5 mit 5/10 bewertet wurden, was auf hohen Token-Verbrauch, langsame Antworten und inkonsistente Ausgaben zurückzuführen ist.

Traubenwurzel-Tool reduziert Claude-Code-Tokenverbrauch durch Zwischenspeicherung des Repository-Kontextes
Ein kostenloses experimentelles Tool namens Grape Root behebt redundanten Token-Verbrauch in Claude Code, indem es einen leichtgewichtigen Zustand über zuvor erkundete Repository-Dateien verwaltet und unnötige Wiederholungslesevorgänge unveränderter Dateien bei Folgefragen verhindert.

StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen
StarSteady ist ein von einer Einzelperson entwickeltes SaaS, das KI-generierte Antworten auf Google-/Yelp-Bewertungen erstellt und SMS-Bewertungsanfragen an Kunden sendet. Der Preis beginnt bei 39 $/Monat, mit einem kostenlosen Testangebot für 5 Antworten/5 SMS.