Benchmark-Ergebnisse: 331 GGUF-Modelle auf Mac Mini M4 16GB getestet

✍️ OpenClawRadar📅 Veröffentlicht: 26. März 2026🔗 Source
Benchmark-Ergebnisse: 331 GGUF-Modelle auf Mac Mini M4 16GB getestet
Ad

Ein umfassender Benchmark testete 331 GGUF-Modelle auf einem Mac Mini M4 mit 16 GB Unified Memory, um praktikable Optionen für den lokalen Einsatz zu identifizieren. Die Testpipeline lief wochenlang und automatisierte die Modellbewertung, um über subjektive Auswahl hinauszugehen.

Wesentliche Erkenntnisse

31 von 331 Modellen waren auf der 16-GB-Hardware völlig unbrauchbar, definiert durch Time-to-First-Token (TTFT) > 10 Sekunden oder Durchsatz < 0,1 Token/Sekunde. Diese Modelle laden technisch gesehen, erleben aber Memory Thrashing. Jedes getestete dichte Modell mit 27B+ fiel in diese Kategorie, wobei Qwen3.5-27B-heretic-v2-Q4_K_S mit 97 Sekunden TTFT und 0,007 Token/Sekunde am schlechtesten abschnitt.

Wenn Modellgewichte plus KV-Cache etwa 14 GB überschreiten, bricht die Leistung "ab". Dichte Modelle über 14B sind auf dieser Hardware speicherbandbreitenbeschränkt.

Architekturvergleich

Mixture-of-Experts (MoE)-Modelle dominieren auf 16-GB-Hardware:

  • Median Token/Sekunde: MoE 20,0 vs. Dicht 4,4
  • Median TTFT: MoE 0,66s vs. Dicht 0,87s
  • Maximale Qualitätsbewertung: MoE 50,4 vs. Dicht 46,2

MoE-Modelle mit 1-3B aktiven Parametern passen in den GPU-Speicher und erreichen dabei eine Qualität, die mit viel größeren dichten Modellen vergleichbar ist.

Pareto-optimale Modelle

Nur 11 Modelle von 331 liegen auf der Pareto-Front (kein anderes Modell übertrifft sie sowohl in Geschwindigkeit als auch Qualität):

  • Ling-mini-2.0 (Q4_K_S, abliterated): 50,3 Tok/s, 24,2 Qualität
  • Ling-mini-2.0 (IQ4_NL): 49,8 Tok/s, 25,8 Qualität
  • Ling-mini-2.0 (Q3_K_L): 46,3 Tok/s, 26,2 Qualität
  • Ling-mini-2.0 (Q3_K_L, abliterated): 46,0 Tok/s, 28,3 Qualität
  • Ling-Coder-lite (IQ4_NL): 24,3 Tok/s, 29,2 Qualität
  • Ling-Coder-lite (Q4_0): 23,6 Tok/s, 31,3 Qualität
  • LFM2-8B-A1B (Q5_K_M): 19,7 Tok/s, 44,6 Qualität
  • LFM2-8B-A1B (Q5_K_XL): 18,9 Tok/s, 44,6 Qualität
  • LFM2-8B-A1B (Q8_0): 15,1 Tok/s, 46,2 Qualität
  • LFM2-8B-A1B (Q8_K_XL): 14,9 Tok/s, 47,9 Qualität
  • LFM2-8B-A1B (Q6_K_XL): 13,9 Tok/s, 50,4 Qualität

Jedes einzelne Pareto-optimale Modell ist eine MoE-Architektur. Jedes andere Modell der 331 wird von einem dieser elf strikt dominiert.

Ad

Kontext- und Nebenläufigkeitsleistung

Die Kontextskalierung zeigt überraschend flache Leistung: Das Median-Token/Sekunde-Verhältnis (4096 vs. 1024 Kontext) beträgt 1,0x. Die meisten Modelle zeigen keine Verschlechterung beim Übergang von 1k zu 4k Kontext, wobei einige MoE-Modelle bei 4k sogar schneller werden. Die Speicherbandbreitengrenze wurde bei 4k auf dieser Hardware noch nicht erreicht.

Nebenläufigkeit ist ein Nettoverlust: Bei Nebenläufigkeit 2 sinkt der Durchsatz pro Anfrage auf 0,55x (ideal wäre 1,0x). Zwei gleichzeitige Anfragen konkurrieren um denselben Unified-Memory-Bus. Die Empfehlung lautet, auf 16-GB-Hardware jeweils eine Anfrage gleichzeitig auszuführen.

Top-Empfehlungen

  1. LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Bestes Gesamtmodell: 50,4 Qualitätskomposit (höchste aller 331 Modelle), 13,9 Token/Sekunde, 0,48s TTFT. MoE mit 1B aktiven Parametern - architektonisch ideal für 16 GB.
  2. LFM2-8B-A1B-Q5_K_M (unsloth) - Beste Geschwindigkeit unter Qualitätsmodellen: 19,7 Token/Sekunde (schnellste LFM2-Variante), 44,6 Qualität (nur 6 Punkte unter dem Spitzenwert). Kleinste Quantisierung = größter Spielraum für längere Kontexte.
  3. LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Ausgewogene Leistungsoption.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

md-redline: GUI-Tool zur Überprüfung und Übergabe von Markdown-Dokumenten an Claude
Werkzeuge

md-redline: GUI-Tool zur Überprüfung und Übergabe von Markdown-Dokumenten an Claude

md-redline ist ein Open-Source-Tool, mit dem Sie Markdown-Dateien in einer GUI öffnen, Inline-Kommentare als HTML-Marker in der .md-Datei speichern und dann an Claude zur Aktualisierung übergeben können. Es läuft lokal ohne Konto, Cloud oder Datenbank.

OpenClawRadar
OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen
Werkzeuge

OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen

Ein Entwickler testete mehrere KI-Modelle mit OpenClaw und fand heraus, dass Codex 5.3 mit einer Bewertung von 9/10 am besten abschneidet, während GLM 4.7 und GLM 5 mit 5/10 bewertet wurden, was auf hohen Token-Verbrauch, langsame Antworten und inkonsistente Ausgaben zurückzuführen ist.

OpenClawRadar
Traubenwurzel-Tool reduziert Claude-Code-Tokenverbrauch durch Zwischenspeicherung des Repository-Kontextes
Werkzeuge

Traubenwurzel-Tool reduziert Claude-Code-Tokenverbrauch durch Zwischenspeicherung des Repository-Kontextes

Ein kostenloses experimentelles Tool namens Grape Root behebt redundanten Token-Verbrauch in Claude Code, indem es einen leichtgewichtigen Zustand über zuvor erkundete Repository-Dateien verwaltet und unnötige Wiederholungslesevorgänge unveränderter Dateien bei Folgefragen verhindert.

OpenClawRadar
StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen
Werkzeuge

StarSteady: KI-gestützte Google-Bewertungsantworten und SMS-Anfragen für lokale Unternehmen

StarSteady ist ein von einer Einzelperson entwickeltes SaaS, das KI-generierte Antworten auf Google-/Yelp-Bewertungen erstellt und SMS-Bewertungsanfragen an Kunden sendet. Der Preis beginnt bei 39 $/Monat, mit einem kostenlosen Testangebot für 5 Antworten/5 SMS.

OpenClawRadar