JANG-Quantisierungsmethode verbessert MLX-Leistung für große Modelle

✍️ OpenClawRadar📅 Veröffentlicht: 18. April 2026🔗 Source
JANG-Quantisierungsmethode verbessert MLX-Leistung für große Modelle
Ad

Leistungslücke zwischen MLX- und GGUF-Quantisierungen

Die Quelle diskutiert ein erhebliches Leistungsproblem mit Standard-MLX-Quantisierungsmethoden für große Sprachmodelle. Im MMLU-Benchmark (200 Fragen) erzielte MiniMax-M2.5, auf 4-Bit für MLX quantisiert, nur 26,5 % (53/200), während dasselbe Modell mit der JANG_2S-Methode quantisiert 74 % (148/200) erreichte. Die JANG-Methode übertraf alle MLX-Quantisierungsstufen (2-Bit, 3-Bit und 4-Bit), die alle nahe der Zufallswahrscheinlichkeit von etwa 25 % lagen.

Spezifische Benchmark-Ergebnisse

Eine detaillierte Aufschlüsselung der MMLU-Fächer zeigt, dass JANG_2L durchweg besser abschneidet als MLX-Quantisierungen:

  • Abstrakte Algebra: JANG_2L 10/20 vs. MLX 4-Bit 3/20
  • Astronomie: JANG_2L 20/20 vs. MLX 4-Bit 7/20
  • College CS: JANG_2L 13/20 vs. MLX 4-Bit 4/20
  • HS Biologie: JANG_2L 18/20 vs. MLX 4-Bit 4/20

Die identifizierte Hauptursache für die schlechte MLX-Leistung ist, dass "MLX bei diesem Modell Meta-Kommentare statt direkter Antworten generiert."

Ad

Modellgrößen- und Leistungsvergleiche

Für das Qwen 3.5 122B-Modell:

  • JANG_4K: 86 % MMLU-Punktzahl, 69 GB Größe
  • MLX 4-Bit: 85 % MMLU-Punktzahl, 64 GB Größe
  • JANG_2S: 79 % MMLU-Punktzahl, 38 GB Größe
  • MLX 2-Bit: 56,5 % MMLU-Punktzahl, 36 GB Größe

Der Autor merkt an, dass "Menschen die Geschwindigkeit des M-Chips gegen Kohärenz eintauschen, ohne GGUF-Äquivalent auf MLX" und dass "Qwen 3.5 auf Macs bei Verwendung von GGUF auch ein Drittel langsamer als MLX ist."

MiniMax-M2.5 Codegenerierungsproblem

Aus referenzierten Benchmarks: "MiniMax-M2.5 kann nicht programmieren – 10 % bei HumanEval+ trotz 87 % Tool-Aufrufen und 80 % logischem Denken. Irgendetwas stimmt mit seinem Codegenerierungsformat nicht. Großartig für logisches Denken."

Verfügbarkeit und Implementierung

Derzeit verfügbar über:

  • MLX Studio: https://mlx.studio/ – verfügt über die native JANG_Q-Inferenz-Engine
  • Repository: Für Selbstinstallation und Modellquantisierung

Die Methode ermöglicht das Ausführen von Modellen wie MiniMax-M2.5 mit "2-Bit-MLX-Äquivalent, während Testergebnisse erzielt werden, die zuvor auf MLX nicht möglich waren."

📖 Quelle vollständig lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Reale Welt-Vergleich: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 im OpenClaw-Setup
Werkzeuge

Reale Welt-Vergleich: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 im OpenClaw-Setup

Ein Entwickler testete drei KI-Modelle an praktischen Aufgaben, darunter die Übersetzung türkischer Redewendungen, Python-Programmierung, räumliches Denken und Browser-Automatisierung. MiMo-V2-Pro übertraf Opus 4.6 bei Programmieraufgaben und war 20-mal günstiger, während Opus Vorteile beim Verständnis nicht-englischer Sprachen behielt.

OpenClawRadar
Gründeroperationen in Claude: 19 wiederverwendbare Fähigkeiten für Startups in der Frühphase
Werkzeuge

Gründeroperationen in Claude: 19 wiederverwendbare Fähigkeiten für Startups in der Frühphase

Ein Gründer, der sein erstes Startup verkauft hat, hat 19 Claude-kompatible Skill-Prompts für Funktionen wie Positionierung, Preisgestaltung, Akquise und Texterstellung veröffentlicht – basierend auf seinen eigenen SOPs und Notion-Workflows.

OpenClawRadar
Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu
Werkzeuge

Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu

Godmode ist ein Open-Source-Plugin, das Claude Code eine autonome Messen-Modifizieren-Verifizieren-Schleife hinzufügt, mit parallelen Agenten, Fehlerspeicher und 126 Fähigkeiten wie Optimierung, Sicherheitsaudits und TDD. Es funktioniert mit Cursor, Codex, Gemini CLI und OpenCode.

OpenClawRadar
Sociality.io veröffentlicht MCP-Server für Claude: Live Social-Media-Intelligenz via OAuth
Werkzeuge

Sociality.io veröffentlicht MCP-Server für Claude: Live Social-Media-Intelligenz via OAuth

Sociality.io hat einen Remote-HTTP-MCP-Server gestartet, der Claude den Zugriff auf Live-Berichte und Wettbewerbsdaten für Instagram, TikTok, Facebook, YouTube, X und LinkedIn ermöglicht. Kostenlos testbar.

OpenClawRadar