Évaluation comparative de 88 petits modèles GGUF sur un Mac Mini M4 16 Go

Un pipeline automatisé a été développé pour télécharger, évaluer, téléverser et supprimer des modèles GGUF par vagues sur un Mac Mini M4 avec une mémoire unifiée de 16 Go. Le pipeline a testé 88 modèles pour trouver des LLM locaux adaptés à cette configuration matérielle.
Principales Constatations
- 9 modèles sur 88 sont inutilisables avec 16 Go de RAM - Tout modèle dont les poids plus le cache KV dépassent environ 14 Go provoque un thrashing mémoire, entraînant un TTFT > 10 secondes ou < 0,1 token/seconde. Cela inclut tous les modèles denses 27B+.
- Seulement 4 modèles se situent sur la frontière de Pareto du débit par rapport à la qualité - Tous sont de l'architecture LFM2-8B-A1B (MoE de LiquidAI avec 1 milliard de paramètres actifs). La conception MoE signifie qu'environ 1 milliard de paramètres sont actifs par token, atteignant 12-20 tokens/seconde là où les modèles denses 8B plafonnent à 5-7 tokens/seconde.
- L'échelle de contexte de 1k à 4k est plate - La plupart des modèles ne montrent aucune dégradation du débit, certaines variantes LFM2 accélérant même à un contexte de 4k.
- La mise à l'échelle de la concurrence est médiocre (0,57x à une concurrence de 2 vs un idéal de 2,0x) - Le Mac Mini est limité par la bande passante mémoire, il est donc recommandé d'exécuter une requête à la fois.
Modèles sur la Frontière de Pareto
Ces quatre modèles surpassent tous les autres à la fois en vitesse et en qualité :
- LFM2-8B-A1B-Q5_K_M (unsloth) : 14,24 TPS en moyenne, score de qualité 44,6
- LFM2-8B-A1B-Q8_0 (unsloth) : 12,37 TPS en moyenne, score de qualité 46,2
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth) : 12,18 TPS en moyenne, score de qualité 47,9
- LFM2-8B-A1B-Q8_0 (LiquidAI) : 12,18 TPS en moyenne, score de qualité 51,2
L'évaluation de la qualité a utilisé des sous-ensembles compacts (20 questions GSM8K + 60 questions MMLU) - utiles pour le classement mais pas pour des chiffres absolus de qualité publication.
Recommandations
Pour la meilleure qualité : LFM2-8B-A1B-Q8_0. Pour la vitesse : Q5_K_M. Pour l'équilibre : UD-Q6_K_XL.
Détails Techniques
- Matériel : Mac Mini M4, mémoire unifiée de 16 Go, macOS 15.x
- Logiciel : llama-server (llama.cpp)
- Méthodologie : Les chiffres de débit sont le p50 sur plusieurs requêtes
- Données : Toutes les données sont reproductibles à partir des artefacts du dépôt
Le pipeline complet est automatisé et open source. Les données CSV avec les 88 modèles et les scripts de benchmark sont disponibles dans le dépôt.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Kula : Surveillance de serveur Linux autonome sans aucune dépendance.
Kula est un outil de surveillance de serveurs Linux léger qui s'exécute sous la forme d'un binaire unique sans dépendances externes ni bases de données. Il collecte les métriques système chaque seconde depuis /proc et /sys, les stocke dans un tampon circulaire à plusieurs niveaux intégré, et propose à la fois une interface tableau de bord web et une interface utilisateur en terminal (TUI).

X-MCP 2.0 : Serveur MCP pour l'accès à l'API X/Twitter depuis Claude
X-MCP 2.0 est un serveur MCP qui connecte Claude Desktop et Claude Code à l'API X/Twitter v2 avec l'authentification OAuth 2.0 PKCE, offrant 10 outils pour publier des tweets, effectuer des recherches, obtenir des timelines, aimer, retweeter, répondre et consulter des profils.

Application iOS Hyper : Enregistreur vocal avec transcription en temps réel et extraction d'actions
Hyper est une application d'enregistrement vocal iOS qui retranscrit les conversations en temps réel, fournit des résumés et des points d'action, et permet des requêtes en plein milieu d'une conversation via la détection de mot d'activation. Elle est conçue pour les réunions non structurées comme les entretiens individuels, les discussions informelles et les points quotidiens.

YourMemory : La mémoire IA à dégradation biologique atteint 59% de rappel sur LoCoMo-10
YourMemory offre une mémoire persistante aux agents IA en utilisant la courbe d'oubli d'Ebbinghaus et une récupération améliorée par graphe. Benchmarké à 59% Recall@5 sur LoCoMo-10, 2× mieux que Zep Cloud.