Метод квантования JANG повышает производительность MLX для больших моделей

Разрыв в производительности между квантизациями MLX и GGUF
В источнике обсуждается значительная проблема производительности стандартных методов квантизации MLX для больших языковых моделей. На бенчмарке MMLU (200 вопросов) модель MiniMax-M2.5, квантизированная до 4-бит для MLX, набрала всего 26,5% (53/200), в то время как та же модель, квантизированная методом JANG_2S, набрала 74% (148/200). Метод JANG превзошёл все уровни квантизации MLX (2-бит, 3-бит и 4-бит), которые все показали результат, близкий к случайному угадыванию, примерно 25%.
Конкретные результаты бенчмарков
Детальный разбивка по предметам MMLU показывает, что JANG_2L последовательно превосходит квантизации MLX:
- Абстрактная алгебра: JANG_2L 10/20 против MLX 4-бит 3/20
- Астрономия: JANG_2L 20/20 против MLX 4-бит 7/20
- Колледж CS: JANG_2L 13/20 против MLX 4-бит 4/20
- Биология для старшей школы: JANG_2L 18/20 против MLX 4-бит 4/20
Выявленная основная причина низкой производительности MLX заключается в том, что "MLX генерирует мета-комментарии вместо прямых ответов на этой модели".
Сравнение размеров моделей и производительности
Для модели Qwen 3.5 122B:
- JANG_4K: 86% балл MMLU, размер 69 ГБ
- MLX 4-бит: 85% балл MMLU, размер 64 ГБ
- JANG_2S: 79% балл MMLU, размер 38 ГБ
- MLX 2-бит: 56,5% балл MMLU, размер 36 ГБ
Автор отмечает, что "Люди жертвуют скоростью чипа M ради связности, при этом на MLX нет эквивалента GGUF" и что "Qwen 3.5 на Mac при использовании GGUF также на треть медленнее, чем на MLX".
Проблема генерации кода в MiniMax-M2.5
Из упомянутых бенчмарков: "MiniMax-M2.5 не умеет писать код — 10% на HumanEval+, несмотря на 87% вызова инструментов и 80% логики. Что-то не так с форматом генерации её кода. Отлично подходит для логических рассуждений."
Доступность и реализация
В настоящее время доступен через:
- MLX Studio: https://mlx.studio/ — имеет нативный движок вывода JANG_Q
- Репозиторий: Для самостоятельной установки и квантизации моделей
Метод позволяет запускать такие модели, как MiniMax-M2.5, с "эквивалентом 2-бит MLX, получая результаты тестов, которые ранее на MLX были невозможны".
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Anthropic запускает Claude для малого бизнеса с готовыми рабочими процессами для QuickBooks, HubSpot, Canva
Claude for Small Business — это устанавливаемый по переключателю пакет в составе Claude Cowork, который подключается к QuickBooks, PayPal, HubSpot, Canva, Docusign, Google Workspace и Microsoft 365 и включает 15 готовых к работе агентных процессов для расчета зарплаты, закрытия месяца, выставления счетов, управления кампаниями и многого другого.

DoomVLM: Инструмент с открытым исходным кодом для тестирования моделей "визуальный язык" в дуэлях на выживание в Doom
DoomVLM теперь имеет открытый исходный код в виде единого блокнота Jupyter, который позволяет тестировать визуально-языковые модели, играющие в Doom через совместимые с OpenAI API. Инструмент поддерживает режимы deathmatch, где могут соревноваться до 4 моделей, с полными настройками системных промптов, описаний инструментов и параметров сэмплирования.

VTCode: TUI-агент кодирования на Rust, агрессивно обрезающий контекст с помощью разбивки на уровне AST
VTCode — это опенсорсный Rust TUI агент для кодирования, который агрессивно обрезает контекст, используя AST-разбивку через ripgrep и ast-grep. Поддерживает кастомных провайдеров, совместимых с OpenAI, песочницу с macOS Seatbelt и Linux Landlock, а также валидацию сгенерированных команд через tree-sitter-bash.

Предоставление Клоду локальной LLM в качестве ассистента через MCP на Mac
Разработчик подключает Claude к локальной Qwen 2.5 Coder 14B через Ollama и MCP, создавая бесплатного ассистента для делегирования задач, таких как обработка текста и работа с большими файлами.