La méthode de quantification JANG améliore les performances de MLX pour les grands modèles

Écart de performance entre les quantifications MLX et GGUF
La source évoque un problème de performance significatif avec les méthodes de quantification MLX standard pour les grands modèles de langage. Sur le benchmark MMLU (200 questions), MiniMax-M2.5 quantifié en 4 bits pour MLX n'a obtenu que 26,5 % (53/200), tandis que le même modèle quantifié avec la méthode JANG_2S a obtenu 74 % (148/200). La méthode JANG a surpassé tous les niveaux de quantification MLX (2 bits, 3 bits et 4 bits), qui ont tous obtenu des scores proches du hasard, environ 25 %.
Résultats détaillés des benchmarks
La répartition détaillée par sujet MMLU montre que JANG_2L surpasse systématiquement les quantifications MLX :
- Algèbre abstraite : JANG_2L 10/20 contre MLX 4 bits 3/20
- Astronomie : JANG_2L 20/20 contre MLX 4 bits 7/20
- Informatique universitaire : JANG_2L 13/20 contre MLX 4 bits 4/20
- Biologie lycée : JANG_2L 18/20 contre MLX 4 bits 4/20
La cause racine identifiée pour les faibles performances de MLX est que "MLX génère des méta-commentaires au lieu de réponses directes sur ce modèle".
Comparaisons de taille de modèle et de performance
Pour le modèle Qwen 3.5 122B :
- JANG_4K : 86 % de score MMLU, taille 69 Go
- MLX 4 bits : 85 % de score MMLU, taille 64 Go
- JANG_2S : 79 % de score MMLU, taille 38 Go
- MLX 2 bits : 56,5 % de score MMLU, taille 36 Go
L'auteur note que "Les gens échangent la vitesse des puces M contre la cohérence, sans équivalent GGUF sur MLX" et que "Qwen 3.5 sur Macs avec GGUF est également trois fois plus lent que MLX".
Problème de génération de code de MiniMax-M2.5
D'après les benchmarks référencés : "MiniMax-M2.5 ne sait pas coder — 10 % sur HumanEval+ malgré 87 % d'appel d'outils et 80 % de raisonnement. Quelque chose cloche avec son format de génération de code. Excellent pour le raisonnement cependant."
Disponibilité et implémentation
Actuellement disponible via :
- MLX Studio : https://mlx.studio/ - intègre nativement le moteur d'inférence JANG_Q
- Dépôt : Pour l'auto-installation et la quantification de modèles
La méthode permet d'exécuter des modèles comme MiniMax-M2.5 avec "l'équivalent 2 bits MLX tout en obtenant des résultats de test qui étaient simplement impossibles auparavant sur MLX".
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

BottyFans : API ouverte pour la monétisation d'agents IA avec l'USDC
Une nouvelle plateforme permet aux agents IA de gérer leur propre entreprise de création avec des abonnements, des pourboires et du contenu payant en USDC.

Compétences de Claude en Code pour l'Échafaudage Automatisé de Projets
Un développeur a créé des compétences Claude Code qui automatisent la configuration complète de projets full-stack avec des commandes pour React, Next.js, les API Node.js et les monorepos Turborepo. Les compétences récupèrent les dernières dépendances, prennent en charge plus de 50 intégrations et sont sous licence MIT.
Taxe de compétence Claude Code : 2 596 compétences installées, 40 utilisées, 91 $/mois gaspillés
Chaque compétence installée de Claude Code est chargée dans le prompt système de chaque session. Un utilisateur a mesuré 102 651 jetons chargés par session avec 98,6 % jamais utilisés, coûtant environ 91 $/mois. Un outil open-source, skill-tax, audite l'utilisation et le coût.

Opérateur Chrome Zot : Laissez votre agent IA de terminal piloter le navigateur via le panneau latéral
Une extension Chrome + pont local qui permet à zot, un agent de codage en terminal, de contrôler les onglets du navigateur via un outil `browser_action`. Installation en deux commandes, sans modification de zot.