Метод квантования JANG повышает производительность MLX для больших моделей

✍️ OpenClawRadar📅 Опубликовано: 18 апреля 2026 г.🔗 Source

Разрыв в производительности между квантизациями MLX и GGUF

В источнике обсуждается значительная проблема производительности стандартных методов квантизации MLX для больших языковых моделей. На бенчмарке MMLU (200 вопросов) модель MiniMax-M2.5, квантизированная до 4-бит для MLX, набрала всего 26,5% (53/200), в то время как та же модель, квантизированная методом JANG_2S, набрала 74% (148/200). Метод JANG превзошёл все уровни квантизации MLX (2-бит, 3-бит и 4-бит), которые все показали результат, близкий к случайному угадыванию, примерно 25%.

Конкретные результаты бенчмарков

Детальный разбивка по предметам MMLU показывает, что JANG_2L последовательно превосходит квантизации MLX:

Абстрактная алгебра: JANG_2L 10/20 против MLX 4-бит 3/20
Астрономия: JANG_2L 20/20 против MLX 4-бит 7/20
Колледж CS: JANG_2L 13/20 против MLX 4-бит 4/20
Биология для старшей школы: JANG_2L 18/20 против MLX 4-бит 4/20

Выявленная основная причина низкой производительности MLX заключается в том, что "MLX генерирует мета-комментарии вместо прямых ответов на этой модели".

Сравнение размеров моделей и производительности

Для модели Qwen 3.5 122B:

JANG_4K: 86% балл MMLU, размер 69 ГБ
MLX 4-бит: 85% балл MMLU, размер 64 ГБ
JANG_2S: 79% балл MMLU, размер 38 ГБ
MLX 2-бит: 56,5% балл MMLU, размер 36 ГБ

Автор отмечает, что "Люди жертвуют скоростью чипа M ради связности, при этом на MLX нет эквивалента GGUF" и что "Qwen 3.5 на Mac при использовании GGUF также на треть медленнее, чем на MLX".

Проблема генерации кода в MiniMax-M2.5

Из упомянутых бенчмарков: "MiniMax-M2.5 не умеет писать код — 10% на HumanEval+, несмотря на 87% вызова инструментов и 80% логики. Что-то не так с форматом генерации её кода. Отлично подходит для логических рассуждений."

Доступность и реализация

В настоящее время доступен через:

MLX Studio: https://mlx.studio/ — имеет нативный движок вывода JANG_Q
Репозиторий: Для самостоятельной установки и квантизации моделей

Метод позволяет запускать такие модели, как MiniMax-M2.5, с "эквивалентом 2-бит MLX, получая результаты тестов, которые ранее на MLX были невозможны".

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Метод эволюции кода утраивает производительность LLM на тесте ARC-AGI-2

Исследователи достигли улучшения в 2,8 раза на бенчмарке ARC-AGI-2, используя эволюцию кода с открытыми весами моделей, достигнув точности 34% при стоимости $2,67 за задачу. Тот же метод позволил повысить точность Gemini 3.1 Pro до 95% при стоимости $8,71 за задачу.

28 февр. 2026 г., 01:45 UTC

OpenClawRadar

Инструменты

BetterClaw против OpenClaw: Сравнение вызова инструментов, структурированных выводов и управления рабочим процессом

Сравнение BetterClaw и OpenClaw для разработчиков: вызов инструментов, структурированные выходные данные, контроль рабочих процессов и повседневная разработка агентов.

2 мая 2026 г., 08:18 UTC

OpenClawRadar

Инструменты

VTCode: TUI-агент кодирования на Rust, агрессивно обрезающий контекст с помощью разбивки на уровне AST

VTCode — это опенсорсный Rust TUI агент для кодирования, который агрессивно обрезает контекст, используя AST-разбивку через ripgrep и ast-grep. Поддерживает кастомных провайдеров, совместимых с OpenAI, песочницу с macOS Seatbelt и Linux Landlock, а также валидацию сгенерированных команд через tree-sitter-bash.

27 мая 2026 г., 12:17 UTC

OpenClawRadar

Инструменты

Расписания Claude Code: Планирование задач агента, как в Cron, с логическим обоснованием

Claude Code Routines позволяют запускать задачи агента по расписанию, не оставляя сессию открытой. Пользователь Reddit делится реальными примерами: ночной обзор коммитов, еженедельная проверка зависимостей, ежедневный анализ логов ошибок — с использованием ИИ для рассуждений вместо вывода сырых скриптов.

7 мая 2026 г., 10:19 UTC

OpenClawRadar