JANG-Quantisierungsmethode verbessert MLX-Leistung für große Modelle

Leistungslücke zwischen MLX- und GGUF-Quantisierungen
Die Quelle diskutiert ein erhebliches Leistungsproblem mit Standard-MLX-Quantisierungsmethoden für große Sprachmodelle. Im MMLU-Benchmark (200 Fragen) erzielte MiniMax-M2.5, auf 4-Bit für MLX quantisiert, nur 26,5 % (53/200), während dasselbe Modell mit der JANG_2S-Methode quantisiert 74 % (148/200) erreichte. Die JANG-Methode übertraf alle MLX-Quantisierungsstufen (2-Bit, 3-Bit und 4-Bit), die alle nahe der Zufallswahrscheinlichkeit von etwa 25 % lagen.
Spezifische Benchmark-Ergebnisse
Eine detaillierte Aufschlüsselung der MMLU-Fächer zeigt, dass JANG_2L durchweg besser abschneidet als MLX-Quantisierungen:
- Abstrakte Algebra: JANG_2L 10/20 vs. MLX 4-Bit 3/20
- Astronomie: JANG_2L 20/20 vs. MLX 4-Bit 7/20
- College CS: JANG_2L 13/20 vs. MLX 4-Bit 4/20
- HS Biologie: JANG_2L 18/20 vs. MLX 4-Bit 4/20
Die identifizierte Hauptursache für die schlechte MLX-Leistung ist, dass "MLX bei diesem Modell Meta-Kommentare statt direkter Antworten generiert."
Modellgrößen- und Leistungsvergleiche
Für das Qwen 3.5 122B-Modell:
- JANG_4K: 86 % MMLU-Punktzahl, 69 GB Größe
- MLX 4-Bit: 85 % MMLU-Punktzahl, 64 GB Größe
- JANG_2S: 79 % MMLU-Punktzahl, 38 GB Größe
- MLX 2-Bit: 56,5 % MMLU-Punktzahl, 36 GB Größe
Der Autor merkt an, dass "Menschen die Geschwindigkeit des M-Chips gegen Kohärenz eintauschen, ohne GGUF-Äquivalent auf MLX" und dass "Qwen 3.5 auf Macs bei Verwendung von GGUF auch ein Drittel langsamer als MLX ist."
MiniMax-M2.5 Codegenerierungsproblem
Aus referenzierten Benchmarks: "MiniMax-M2.5 kann nicht programmieren – 10 % bei HumanEval+ trotz 87 % Tool-Aufrufen und 80 % logischem Denken. Irgendetwas stimmt mit seinem Codegenerierungsformat nicht. Großartig für logisches Denken."
Verfügbarkeit und Implementierung
Derzeit verfügbar über:
- MLX Studio: https://mlx.studio/ – verfügt über die native JANG_Q-Inferenz-Engine
- Repository: Für Selbstinstallation und Modellquantisierung
Die Methode ermöglicht das Ausführen von Modellen wie MiniMax-M2.5 mit "2-Bit-MLX-Äquivalent, während Testergebnisse erzielt werden, die zuvor auf MLX nicht möglich waren."
📖 Quelle vollständig lesen: r/LocalLLaMA
👀 Siehe auch

Reale Welt-Vergleich: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 im OpenClaw-Setup
Ein Entwickler testete drei KI-Modelle an praktischen Aufgaben, darunter die Übersetzung türkischer Redewendungen, Python-Programmierung, räumliches Denken und Browser-Automatisierung. MiMo-V2-Pro übertraf Opus 4.6 bei Programmieraufgaben und war 20-mal günstiger, während Opus Vorteile beim Verständnis nicht-englischer Sprachen behielt.

Gründeroperationen in Claude: 19 wiederverwendbare Fähigkeiten für Startups in der Frühphase
Ein Gründer, der sein erstes Startup verkauft hat, hat 19 Claude-kompatible Skill-Prompts für Funktionen wie Positionierung, Preisgestaltung, Akquise und Texterstellung veröffentlicht – basierend auf seinen eigenen SOPs und Notion-Workflows.

Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu
Godmode ist ein Open-Source-Plugin, das Claude Code eine autonome Messen-Modifizieren-Verifizieren-Schleife hinzufügt, mit parallelen Agenten, Fehlerspeicher und 126 Fähigkeiten wie Optimierung, Sicherheitsaudits und TDD. Es funktioniert mit Cursor, Codex, Gemini CLI und OpenCode.

Sociality.io veröffentlicht MCP-Server für Claude: Live Social-Media-Intelligenz via OAuth
Sociality.io hat einen Remote-HTTP-MCP-Server gestartet, der Claude den Zugriff auf Live-Berichte und Wettbewerbsdaten für Instagram, TikTok, Facebook, YouTube, X und LinkedIn ermöglicht. Kostenlos testbar.