331 Modèles GGUF Benchmark : Seulement 11 Pareto-Optimaux

Un benchmark complet a testé 331 modèles GGUF sur un Mac Mini M4 avec 16 Go de mémoire unifiée pour identifier des options viables pour un déploiement local. Le pipeline de test a fonctionné pendant des semaines, automatisant l'évaluation des modèles pour aller au-delà d'une sélection subjective.

Principales Constatations

31 modèles sur 331 étaient complètement inutilisables sur un matériel de 16 Go, définis par un temps jusqu'au premier token (TTFT) > 10 secondes ou un débit < 0,1 token/seconde. Ces modèles se chargent techniquement mais subissent un phénomène de « thrashing » mémoire. Chaque modèle dense de 27B+ testé est tombé dans cette catégorie, avec Qwen3.5-27B-heretic-v2-Q4_K_S comme le pire performant avec un TTFT de 97 secondes et 0,007 token/seconde.

Lorsque les poids du modèle plus le cache KV dépassent environ 14 Go, les performances « chutent brutalement ». Les modèles denses au-dessus de 14B sont limités par la bande passante mémoire sur ce matériel.

Comparaison d'Architecture

Les modèles Mixture-of-Experts (MoE) dominent sur un matériel de 16 Go :

Médiane tokens/seconde : MoE 20,0 vs Dense 4,4
Médiane TTFT : MoE 0,66s vs Dense 0,87s
Score de qualité maximum : MoE 50,4 vs Dense 46,2

Les modèles MoE avec 1-3B de paramètres actifs tiennent dans la mémoire GPU tout en atteignant une qualité comparable à des modèles denses bien plus grands.

Modèles Pareto-Optimaux

Seulement 11 modèles sur 331 se situent sur la frontière de Pareto (aucun autre modèle ne les surpasse à la fois en vitesse et en qualité) :

Ling-mini-2.0 (Q4_K_S, abliterated) : 50,3 tok/s, 24,2 qualité
Ling-mini-2.0 (IQ4_NL) : 49,8 tok/s, 25,8 qualité
Ling-mini-2.0 (Q3_K_L) : 46,3 tok/s, 26,2 qualité
Ling-mini-2.0 (Q3_K_L, abliterated) : 46,0 tok/s, 28,3 qualité
Ling-Coder-lite (IQ4_NL) : 24,3 tok/s, 29,2 qualité
Ling-Coder-lite (Q4_0) : 23,6 tok/s, 31,3 qualité
LFM2-8B-A1B (Q5_K_M) : 19,7 tok/s, 44,6 qualité
LFM2-8B-A1B (Q5_K_XL) : 18,9 tok/s, 44,6 qualité
LFM2-8B-A1B (Q8_0) : 15,1 tok/s, 46,2 qualité
LFM2-8B-A1B (Q8_K_XL) : 14,9 tok/s, 47,9 qualité
LFM2-8B-A1B (Q6_K_XL) : 13,9 tok/s, 50,4 qualité

Chaque modèle Pareto-optimal est une architecture MoE. Chaque autre modèle parmi les 331 est strictement dominé par l'un de ces onze.

Performance en Contexte et Concurrence

La mise à l'échelle du contexte montre des performances étonnamment stables : le ratio médian tokens/seconde (contexte 4096 vs 1024) est de 1,0x. La plupart des modèles ne montrent aucune dégradation en passant d'un contexte de 1k à 4k, certains modèles MoE accélérant même à 4k. Le goulet d'étranglement de la bande passante mémoire n'est pas encore atteint à 4k sur ce matériel.

La concurrence est une perte nette : à une concurrence de 2, le débit par requête chute à 0,55x (l'idéal serait 1,0x). Deux requêtes concurrentes se disputent le même bus de mémoire unifiée. La recommandation est d'exécuter une requête à la fois sur un matériel de 16 Go.

Recommandations Principales

LFM2-8B-A1B-UD-Q6_K_XL (unsloth) - Meilleur global : 50,4 de qualité composite (la plus élevée parmi les 331 modèles), 13,9 tokens/seconde, 0,48s TTFT. MoE avec 1B de paramètres actifs - architecturalement idéal pour 16 Go.
LFM2-8B-A1B-Q5_K_M (unsloth) - Meilleure vitesse parmi les modèles de qualité : 19,7 tokens/seconde (variante LFM2 la plus rapide), 44,6 de qualité (seulement 6 points en dessous du meilleur). La plus petite quantification = plus de marge pour des contextes plus longs.
LFM2-8B-A1B-UD-Q8_K_XL (unsloth) - Option de performance équilibrée.

📖 Read the full source: r/LocalLLaMA

Résultats de Benchmark : 331 Modèles GGUF Testés sur Mac Mini M4 16 Go

Principales Constatations

Comparaison d'Architecture

Modèles Pareto-Optimaux

Performance en Contexte et Concurrence

Recommandations Principales

👀 See Also

PhAIL Benchmark Évalue les Modèles VLA sur des Tâches Réelles de Robotique d'Entrepôt

Sonicker : Application Web de Clonage Vocal Développée avec Claude Code en 4 Jours

PocketBot : Un pilote automatique IA local pour iOS utilisant les intentions d'application et l'inférence sur appareil

Développeur Crée un Port Natif de tmux pour Windows en Utilisant le Code Claude Sans Connaître le C