Quantification JANG : Meilleures performances MLX pour gros modèles

Écart de performance entre les quantifications MLX et GGUF

La source évoque un problème de performance significatif avec les méthodes de quantification MLX standard pour les grands modèles de langage. Sur le benchmark MMLU (200 questions), MiniMax-M2.5 quantifié en 4 bits pour MLX n'a obtenu que 26,5 % (53/200), tandis que le même modèle quantifié avec la méthode JANG_2S a obtenu 74 % (148/200). La méthode JANG a surpassé tous les niveaux de quantification MLX (2 bits, 3 bits et 4 bits), qui ont tous obtenu des scores proches du hasard, environ 25 %.

Résultats détaillés des benchmarks

La répartition détaillée par sujet MMLU montre que JANG_2L surpasse systématiquement les quantifications MLX :

Algèbre abstraite : JANG_2L 10/20 contre MLX 4 bits 3/20
Astronomie : JANG_2L 20/20 contre MLX 4 bits 7/20
Informatique universitaire : JANG_2L 13/20 contre MLX 4 bits 4/20
Biologie lycée : JANG_2L 18/20 contre MLX 4 bits 4/20

La cause racine identifiée pour les faibles performances de MLX est que "MLX génère des méta-commentaires au lieu de réponses directes sur ce modèle".

Comparaisons de taille de modèle et de performance

Pour le modèle Qwen 3.5 122B :

JANG_4K : 86 % de score MMLU, taille 69 Go
MLX 4 bits : 85 % de score MMLU, taille 64 Go
JANG_2S : 79 % de score MMLU, taille 38 Go
MLX 2 bits : 56,5 % de score MMLU, taille 36 Go

L'auteur note que "Les gens échangent la vitesse des puces M contre la cohérence, sans équivalent GGUF sur MLX" et que "Qwen 3.5 sur Macs avec GGUF est également trois fois plus lent que MLX".

Problème de génération de code de MiniMax-M2.5

D'après les benchmarks référencés : "MiniMax-M2.5 ne sait pas coder — 10 % sur HumanEval+ malgré 87 % d'appel d'outils et 80 % de raisonnement. Quelque chose cloche avec son format de génération de code. Excellent pour le raisonnement cependant."

Disponibilité et implémentation

Actuellement disponible via :

MLX Studio : https://mlx.studio/ - intègre nativement le moteur d'inférence JANG_Q
Dépôt : Pour l'auto-installation et la quantification de modèles

La méthode permet d'exécuter des modèles comme MiniMax-M2.5 avec "l'équivalent 2 bits MLX tout en obtenant des résultats de test qui étaient simplement impossibles auparavant sur MLX".

📖 Lire la source complète : r/LocalLLaMA

La méthode de quantification JANG améliore les performances de MLX pour les grands modèles

Écart de performance entre les quantifications MLX et GGUF

Résultats détaillés des benchmarks

Comparaisons de taille de modèle et de performance

Problème de génération de code de MiniMax-M2.5

Disponibilité et implémentation

👀 See Also

Méthodologie open-source pour un partenariat agentique avec Claude

Implémentation de l'Agent Local OpenClaw avec Cache TurboQuant pour Matériel de Gamme Moyenne

OpenRoom : Une interface graphique de bureau basée sur le Web pour visualiser les compétences des agents IA

Savant Commander 48B : Un modèle personnalisé Qwen 3 à base de mélange d'experts, intégrant 12 modèles distillés