Résultats de Benchmark : 331 Modèles GGUF Testés sur Mac Mini M4 16 Go

Un benchmark complet a testé 331 modèles GGUF sur un Mac Mini M4 avec 16 Go de mémoire unifiée pour identifier des options viables pour un déploiement local. Le pipeline de test a fonctionné pendant des semaines, automatisant l'évaluation des modèles pour aller au-delà d'une sélection subjective.
Principales Constatations
31 modèles sur 331 étaient complètement inutilisables sur un matériel de 16 Go, définis par un temps jusqu'au premier token (TTFT) > 10 secondes ou un débit < 0,1 token/seconde. Ces modèles se chargent techniquement mais subissent un phénomène de « thrashing » mémoire. Chaque modèle dense de 27B+ testé est tombé dans cette catégorie, avec Qwen3.5-27B-heretic-v2-Q4_K_S comme le pire performant avec un TTFT de 97 secondes et 0,007 token/seconde.
Lorsque les poids du modèle plus le cache KV dépassent environ 14 Go, les performances « chutent brutalement ». Les modèles denses au-dessus de 14B sont limités par la bande passante mémoire sur ce matériel.
Comparaison d'Architecture
Les modèles Mixture-of-Experts (MoE) dominent sur un matériel de 16 Go :
- Médiane tokens/seconde : MoE 20,0 vs Dense 4,4
- Médiane TTFT : MoE 0,66s vs Dense 0,87s
- Score de qualité maximum : MoE 50,4 vs Dense 46,2
Les modèles MoE avec 1-3B de paramètres actifs tiennent dans la mémoire GPU tout en atteignant une qualité comparable à des modèles denses bien plus grands.
Modèles Pareto-Optimaux
Seulement 11 modèles sur 331 se situent sur la frontière de Pareto (aucun autre modèle ne les surpasse à la fois en vitesse et en qualité) :
- Ling-mini-2.0 (Q4_K_S, abliterated) : 50,3 tok/s, 24,2 qualité
- Ling-mini-2.0 (IQ4_NL) : 49,8 tok/s, 25,8 qualité
- Ling-mini-2.0 (Q3_K_L) : 46,3 tok/s, 26,2 qualité
- Ling-mini-2.0 (Q3_K_L, abliterated) : 46,0 tok/s, 28,3 qualité
- Ling-Coder-lite (IQ4_NL) : 24,3 tok/s, 29,2 qualité
- Ling-Coder-lite (Q4_0) : 23,6 tok/s, 31,3 qualité
- LFM2-8B-A1B (Q5_K_M) : 19,7 tok/s, 44,6 qualité
- LFM2-8B-A1B (Q5_K_XL) : 18,9 tok/s, 44,6 qualité
- LFM2-8B-A1B (Q8_0) : 15,1 tok/s, 46,2 qualité
- LFM2-8B-A1B (Q8_K_XL) : 14,9 tok/s, 47,9 qualité
- LFM2-8B-A1B (Q6_K_XL) : 13,9 tok/s, 50,4 qualité
Chaque modèle Pareto-optimal est une architecture MoE. Chaque autre modèle parmi les 331 est strictement dominé par l'un de ces onze.
Performance en Contexte et Concurrence
La mise à l'échelle du contexte montre des performances étonnamment stables : le ratio médian tokens/seconde (contexte 4096 vs 1024) est de 1,0x. La plupart des modèles ne montrent aucune dégradation en passant d'un contexte de 1k à 4k, certains modèles MoE accélérant même à 4k. Le goulet d'étranglement de la bande passante mémoire n'est pas encore atteint à 4k sur ce matériel.
La concurrence est une perte nette : à une concurrence de 2, le débit par requête chute à 0,55x (l'idéal serait 1,0x). Deux requêtes concurrentes se disputent le même bus de mémoire unifiée. La recommandation est d'exécuter une requête à la fois sur un matériel de 16 Go.
Recommandations Principales
- LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Meilleur global : 50,4 de qualité composite (la plus élevée parmi les 331 modèles), 13,9 tokens/seconde, 0,48s TTFT. MoE avec 1B de paramètres actifs - architecturalement idéal pour 16 Go.
- LFM2-8B-A1B-Q5_K_M (unsloth) - Meilleure vitesse parmi les modèles de qualité : 19,7 tokens/seconde (variante LFM2 la plus rapide), 44,6 de qualité (seulement 6 points en dessous du meilleur). La plus petite quantification = plus de marge pour des contextes plus longs.
- LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Option de performance équilibrée.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Exploration de Clawe : Système de Coordination Multi-agents Open-source
Clawe est un outil open-source permettant une coordination multi-agents efficace, offrant des fonctionnalités telles que la planification, la gestion des tâches et les notifications en temps réel.

AlterSpec v1.0 : Application des politiques d'exécution pour les agents d'IA
AlterSpec v1.0 est un moteur d'exécution open-source qui s'intercale entre les agents d'IA et leurs outils, évaluant les actions par rapport à des politiques définies en YAML avant leur exécution. Il fournit des décisions d'autorisation/refus/examen, une signature cryptographique des politiques et une journalisation d'audit.

Claude Watch : un outil open source qui visualise la logique du code généré par l'IA
Claude Watch est un outil open source qui fournit une visualisation sémantique graphique pour les projets construits avec des agents de codage IA comme Claude Code. Il analyse le code de manière imbriquée et inclut une recherche alimentée par l'IA pour répondre aux questions sur la logique du projet.

Parlez avec Claw : Interface Vocale iOS Open Source pour les Bots OpenClaw Telegram
Une application iOS open source qui permet une interaction vocale avec les bots Telegram alimentés par OpenClaw. L'application envoie l'audio à un serveur Mac local pour traitement, avec des réponses retournées sous forme de texte et d'audio.