JANG: Método de Quantização Melhora MLX para Modelos Grandes

Diferença de Desempenho Entre Quantizações MLX e GGUF

A fonte discute um problema significativo de desempenho com os métodos padrão de quantização MLX para modelos de linguagem grandes. No benchmark MMLU (200 perguntas), o MiniMax-M2.5 quantizado para 4 bits no MLX obteve apenas 26,5% (53/200), enquanto o mesmo modelo quantizado com o método JANG_2S obteve 74% (148/200). O método JANG superou todos os níveis de quantização MLX (2 bits, 3 bits e 4 bits), que todos pontuaram perto do acaso aleatório, aproximadamente 25%.

Resultados Específicos de Benchmark

O detalhamento por assunto do MMLU mostra que o JANG_2L supera consistentemente as quantizações MLX:

Álgebra Abstrata: JANG_2L 10/20 vs MLX 4 bits 3/20
Astronomia: JANG_2L 20/20 vs MLX 4 bits 7/20
Ciência da Computação Universitária: JANG_2L 13/20 vs MLX 4 bits 4/20
Biologia do Ensino Médio: JANG_2L 18/20 vs MLX 4 bits 4/20

A causa raiz identificada para o fraco desempenho do MLX é que "o MLX gera metacomentários em vez de respostas diretas neste modelo".

Comparações de Tamanho e Desempenho do Modelo

Para o modelo Qwen 3.5 122B:

JANG_4K: 86% pontuação MMLU, 69 GB de tamanho
MLX 4 bits: 85% pontuação MMLU, 64 GB de tamanho
JANG_2S: 79% pontuação MMLU, 38 GB de tamanho
MLX 2 bits: 56,5% pontuação MMLU, 36 GB de tamanho

O autor observa que "As pessoas trocam a velocidade do chip M por coerência, sem equivalente GGUF no MLX" e que "O Qwen 3.5 em Macs ao usar GGUF também é 1/3 mais lento do que o MLX".

Problema de Geração de Código do MiniMax-M2.5

Dos benchmarks referenciados: "O MiniMax-M2.5 não consegue programar — 10% no HumanEval+ apesar de 87% de chamada de ferramentas e 80% de raciocínio. Algo está errado com seu formato de geração de código. Ótimo para raciocínio, porém."

Disponibilidade e Implementação

Atualmente disponível através de:

MLX Studio: https://mlx.studio/ - possui o motor de inferência JANG_Q nativo
Repositório: Para autoinstalação e quantização de modelos

O método permite executar modelos como o MiniMax-M2.5 com "equivalente a 2 bits MLX enquanto obtém resultados de teste que simplesmente não eram possíveis antes no MLX".

📖 Read the full source: r/LocalLLaMA