Метод квантования JANG повышает производительность MLX для больших моделей

✍️ OpenClawRadar📅 Опубликовано: 18 апреля 2026 г.🔗 Source
Метод квантования JANG повышает производительность MLX для больших моделей
Ad

Разрыв в производительности между квантизациями MLX и GGUF

В источнике обсуждается значительная проблема производительности стандартных методов квантизации MLX для больших языковых моделей. На бенчмарке MMLU (200 вопросов) модель MiniMax-M2.5, квантизированная до 4-бит для MLX, набрала всего 26,5% (53/200), в то время как та же модель, квантизированная методом JANG_2S, набрала 74% (148/200). Метод JANG превзошёл все уровни квантизации MLX (2-бит, 3-бит и 4-бит), которые все показали результат, близкий к случайному угадыванию, примерно 25%.

Конкретные результаты бенчмарков

Детальный разбивка по предметам MMLU показывает, что JANG_2L последовательно превосходит квантизации MLX:

  • Абстрактная алгебра: JANG_2L 10/20 против MLX 4-бит 3/20
  • Астрономия: JANG_2L 20/20 против MLX 4-бит 7/20
  • Колледж CS: JANG_2L 13/20 против MLX 4-бит 4/20
  • Биология для старшей школы: JANG_2L 18/20 против MLX 4-бит 4/20

Выявленная основная причина низкой производительности MLX заключается в том, что "MLX генерирует мета-комментарии вместо прямых ответов на этой модели".

Ad

Сравнение размеров моделей и производительности

Для модели Qwen 3.5 122B:

  • JANG_4K: 86% балл MMLU, размер 69 ГБ
  • MLX 4-бит: 85% балл MMLU, размер 64 ГБ
  • JANG_2S: 79% балл MMLU, размер 38 ГБ
  • MLX 2-бит: 56,5% балл MMLU, размер 36 ГБ

Автор отмечает, что "Люди жертвуют скоростью чипа M ради связности, при этом на MLX нет эквивалента GGUF" и что "Qwen 3.5 на Mac при использовании GGUF также на треть медленнее, чем на MLX".

Проблема генерации кода в MiniMax-M2.5

Из упомянутых бенчмарков: "MiniMax-M2.5 не умеет писать код — 10% на HumanEval+, несмотря на 87% вызова инструментов и 80% логики. Что-то не так с форматом генерации её кода. Отлично подходит для логических рассуждений."

Доступность и реализация

В настоящее время доступен через:

  • MLX Studio: https://mlx.studio/ — имеет нативный движок вывода JANG_Q
  • Репозиторий: Для самостоятельной установки и квантизации моделей

Метод позволяет запускать такие модели, как MiniMax-M2.5, с "эквивалентом 2-бит MLX, получая результаты тестов, которые ранее на MLX были невозможны".

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Anthropic запускает Claude для малого бизнеса с готовыми рабочими процессами для QuickBooks, HubSpot, Canva
Инструменты

Anthropic запускает Claude для малого бизнеса с готовыми рабочими процессами для QuickBooks, HubSpot, Canva

Claude for Small Business — это устанавливаемый по переключателю пакет в составе Claude Cowork, который подключается к QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace и Microsoft 365 и включает 15 готовых к работе агентных процессов для расчета зарплаты, закрытия месяца, выставления счетов, управления кампаниями и многого другого.

OpenClawRadar
DoomVLM: Инструмент с открытым исходным кодом для тестирования моделей "визуальный язык" в дуэлях на выживание в Doom
Инструменты

DoomVLM: Инструмент с открытым исходным кодом для тестирования моделей "визуальный язык" в дуэлях на выживание в Doom

DoomVLM теперь имеет открытый исходный код в виде единого блокнота Jupyter, который позволяет тестировать визуально-языковые модели, играющие в Doom через совместимые с OpenAI API. Инструмент поддерживает режимы deathmatch, где могут соревноваться до 4 моделей, с полными настройками системных промптов, описаний инструментов и параметров сэмплирования.

OpenClawRadar
VTCode: TUI-агент кодирования на Rust, агрессивно обрезающий контекст с помощью разбивки на уровне AST
Инструменты

VTCode: TUI-агент кодирования на Rust, агрессивно обрезающий контекст с помощью разбивки на уровне AST

VTCode — это опенсорсный Rust TUI агент для кодирования, который агрессивно обрезает контекст, используя AST-разбивку через ripgrep и ast-grep. Поддерживает кастомных провайдеров, совместимых с OpenAI, песочницу с macOS Seatbelt и Linux Landlock, а также валидацию сгенерированных команд через tree-sitter-bash.

OpenClawRadar
Предоставление Клоду локальной LLM в качестве ассистента через MCP на Mac
Инструменты

Предоставление Клоду локальной LLM в качестве ассистента через MCP на Mac

Разработчик подключает Claude к локальной Qwen 2.5 Coder 14B через Ollama и MCP, создавая бесплатного ассистента для делегирования задач, таких как обработка текста и работа с большими файлами.

OpenClawRadar