88 Modèles GGUF Testés sur Mac Mini M4 : Top 4 Révélés

Un pipeline automatisé a été développé pour télécharger, évaluer, téléverser et supprimer des modèles GGUF par vagues sur un Mac Mini M4 avec une mémoire unifiée de 16 Go. Le pipeline a testé 88 modèles pour trouver des LLM locaux adaptés à cette configuration matérielle.

Principales Constatations

9 modèles sur 88 sont inutilisables avec 16 Go de RAM - Tout modèle dont les poids plus le cache KV dépassent environ 14 Go provoque un thrashing mémoire, entraînant un TTFT > 10 secondes ou < 0,1 token/seconde. Cela inclut tous les modèles denses 27B+.
Seulement 4 modèles se situent sur la frontière de Pareto du débit par rapport à la qualité - Tous sont de l'architecture LFM2-8B-A1B (MoE de LiquidAI avec 1 milliard de paramètres actifs). La conception MoE signifie qu'environ 1 milliard de paramètres sont actifs par token, atteignant 12-20 tokens/seconde là où les modèles denses 8B plafonnent à 5-7 tokens/seconde.
L'échelle de contexte de 1k à 4k est plate - La plupart des modèles ne montrent aucune dégradation du débit, certaines variantes LFM2 accélérant même à un contexte de 4k.
La mise à l'échelle de la concurrence est médiocre (0,57x à une concurrence de 2 vs un idéal de 2,0x) - Le Mac Mini est limité par la bande passante mémoire, il est donc recommandé d'exécuter une requête à la fois.

Modèles sur la Frontière de Pareto

Ces quatre modèles surpassent tous les autres à la fois en vitesse et en qualité :

LFM2-8B-A1B-Q5_K_M (unsloth) : 14,24 TPS en moyenne, score de qualité 44,6
LFM2-8B-A1B-Q8_0 (unsloth) : 12,37 TPS en moyenne, score de qualité 46,2
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) : 12,18 TPS en moyenne, score de qualité 47,9
LFM2-8B-A1B-Q8_0 (LiquidAI) : 12,18 TPS en moyenne, score de qualité 51,2

L'évaluation de la qualité a utilisé des sous-ensembles compacts (20 questions GSM8K + 60 questions MMLU) - utiles pour le classement mais pas pour des chiffres absolus de qualité publication.

Recommandations

Pour la meilleure qualité : LFM2-8B-A1B-Q8_0. Pour la vitesse : Q5_K_M. Pour l'équilibre : UD-Q6_K_XL.

Détails Techniques

Matériel : Mac Mini M4, mémoire unifiée de 16 Go, macOS 15.x
Logiciel : llama-server (llama.cpp)
Méthodologie : Les chiffres de débit sont le p50 sur plusieurs requêtes
Données : Toutes les données sont reproductibles à partir des artefacts du dépôt

Le pipeline complet est automatisé et open source. Les données CSV avec les 88 modèles et les scripts de benchmark sont disponibles dans le dépôt.

📖 Lire la source complète : r/LocalLLaMA