La méthode de quantification JANG améliore les performances de MLX pour les grands modèles

✍️ OpenClawRadar📅 Publié: April 18, 2026🔗 Source
La méthode de quantification JANG améliore les performances de MLX pour les grands modèles
Ad

Écart de performance entre les quantifications MLX et GGUF

La source évoque un problème de performance significatif avec les méthodes de quantification MLX standard pour les grands modèles de langage. Sur le benchmark MMLU (200 questions), MiniMax-M2.5 quantifié en 4 bits pour MLX n'a obtenu que 26,5 % (53/200), tandis que le même modèle quantifié avec la méthode JANG_2S a obtenu 74 % (148/200). La méthode JANG a surpassé tous les niveaux de quantification MLX (2 bits, 3 bits et 4 bits), qui ont tous obtenu des scores proches du hasard, environ 25 %.

Résultats détaillés des benchmarks

La répartition détaillée par sujet MMLU montre que JANG_2L surpasse systématiquement les quantifications MLX :

  • Algèbre abstraite : JANG_2L 10/20 contre MLX 4 bits 3/20
  • Astronomie : JANG_2L 20/20 contre MLX 4 bits 7/20
  • Informatique universitaire : JANG_2L 13/20 contre MLX 4 bits 4/20
  • Biologie lycée : JANG_2L 18/20 contre MLX 4 bits 4/20

La cause racine identifiée pour les faibles performances de MLX est que "MLX génère des méta-commentaires au lieu de réponses directes sur ce modèle".

Ad

Comparaisons de taille de modèle et de performance

Pour le modèle Qwen 3.5 122B :

  • JANG_4K : 86 % de score MMLU, taille 69 Go
  • MLX 4 bits : 85 % de score MMLU, taille 64 Go
  • JANG_2S : 79 % de score MMLU, taille 38 Go
  • MLX 2 bits : 56,5 % de score MMLU, taille 36 Go

L'auteur note que "Les gens échangent la vitesse des puces M contre la cohérence, sans équivalent GGUF sur MLX" et que "Qwen 3.5 sur Macs avec GGUF est également trois fois plus lent que MLX".

Problème de génération de code de MiniMax-M2.5

D'après les benchmarks référencés : "MiniMax-M2.5 ne sait pas coder — 10 % sur HumanEval+ malgré 87 % d'appel d'outils et 80 % de raisonnement. Quelque chose cloche avec son format de génération de code. Excellent pour le raisonnement cependant."

Disponibilité et implémentation

Actuellement disponible via :

  • MLX Studio : https://mlx.studio/ - intègre nativement le moteur d'inférence JANG_Q
  • Dépôt : Pour l'auto-installation et la quantification de modèles

La méthode permet d'exécuter des modèles comme MiniMax-M2.5 avec "l'équivalent 2 bits MLX tout en obtenant des résultats de test qui étaient simplement impossibles auparavant sur MLX".

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

BottyFans : API ouverte pour la monétisation d'agents IA avec l'USDC
Tools

BottyFans : API ouverte pour la monétisation d'agents IA avec l'USDC

Une nouvelle plateforme permet aux agents IA de gérer leur propre entreprise de création avec des abonnements, des pourboires et du contenu payant en USDC.

OpenClaw Radar
Compétences de Claude en Code pour l'Échafaudage Automatisé de Projets
Tools

Compétences de Claude en Code pour l'Échafaudage Automatisé de Projets

Un développeur a créé des compétences Claude Code qui automatisent la configuration complète de projets full-stack avec des commandes pour React, Next.js, les API Node.js et les monorepos Turborepo. Les compétences récupèrent les dernières dépendances, prennent en charge plus de 50 intégrations et sont sous licence MIT.

OpenClawRadar
🦀
Tools

Taxe de compétence Claude Code : 2 596 compétences installées, 40 utilisées, 91 $/mois gaspillés

Chaque compétence installée de Claude Code est chargée dans le prompt système de chaque session. Un utilisateur a mesuré 102 651 jetons chargés par session avec 98,6 % jamais utilisés, coûtant environ 91 $/mois. Un outil open-source, skill-tax, audite l'utilisation et le coût.

OpenClawRadar
Opérateur Chrome Zot : Laissez votre agent IA de terminal piloter le navigateur via le panneau latéral
Tools

Opérateur Chrome Zot : Laissez votre agent IA de terminal piloter le navigateur via le panneau latéral

Une extension Chrome + pont local qui permet à zot, un agent de codage en terminal, de contrôler les onglets du navigateur via un outil `browser_action`. Installation en deux commandes, sans modification de zot.

OpenClawRadar