JANG-Quantisierung: MLX-Leistung für große Modelle verbessern

Leistungslücke zwischen MLX- und GGUF-Quantisierungen

Die Quelle diskutiert ein erhebliches Leistungsproblem mit Standard-MLX-Quantisierungsmethoden für große Sprachmodelle. Im MMLU-Benchmark (200 Fragen) erzielte MiniMax-M2.5, auf 4-Bit für MLX quantisiert, nur 26,5 % (53/200), während dasselbe Modell mit der JANG_2S-Methode quantisiert 74 % (148/200) erreichte. Die JANG-Methode übertraf alle MLX-Quantisierungsstufen (2-Bit, 3-Bit und 4-Bit), die alle nahe der Zufallswahrscheinlichkeit von etwa 25 % lagen.

Spezifische Benchmark-Ergebnisse

Eine detaillierte Aufschlüsselung der MMLU-Fächer zeigt, dass JANG_2L durchweg besser abschneidet als MLX-Quantisierungen:

Abstrakte Algebra: JANG_2L 10/20 vs. MLX 4-Bit 3/20
Astronomie: JANG_2L 20/20 vs. MLX 4-Bit 7/20
College CS: JANG_2L 13/20 vs. MLX 4-Bit 4/20
HS Biologie: JANG_2L 18/20 vs. MLX 4-Bit 4/20

Die identifizierte Hauptursache für die schlechte MLX-Leistung ist, dass "MLX bei diesem Modell Meta-Kommentare statt direkter Antworten generiert."

Modellgrößen- und Leistungsvergleiche

Für das Qwen 3.5 122B-Modell:

JANG_4K: 86 % MMLU-Punktzahl, 69 GB Größe
MLX 4-Bit: 85 % MMLU-Punktzahl, 64 GB Größe
JANG_2S: 79 % MMLU-Punktzahl, 38 GB Größe
MLX 2-Bit: 56,5 % MMLU-Punktzahl, 36 GB Größe

Der Autor merkt an, dass "Menschen die Geschwindigkeit des M-Chips gegen Kohärenz eintauschen, ohne GGUF-Äquivalent auf MLX" und dass "Qwen 3.5 auf Macs bei Verwendung von GGUF auch ein Drittel langsamer als MLX ist."

MiniMax-M2.5 Codegenerierungsproblem

Aus referenzierten Benchmarks: "MiniMax-M2.5 kann nicht programmieren – 10 % bei HumanEval+ trotz 87 % Tool-Aufrufen und 80 % logischem Denken. Irgendetwas stimmt mit seinem Codegenerierungsformat nicht. Großartig für logisches Denken."

Verfügbarkeit und Implementierung

Derzeit verfügbar über:

MLX Studio: https://mlx.studio/ – verfügt über die native JANG_Q-Inferenz-Engine
Repository: Für Selbstinstallation und Modellquantisierung

Die Methode ermöglicht das Ausführen von Modellen wie MiniMax-M2.5 mit "2-Bit-MLX-Äquivalent, während Testergebnisse erzielt werden, die zuvor auf MLX nicht möglich waren."

📖 Quelle vollständig lesen: r/LocalLLaMA