JANG: Cuantización MLX para Modelos Grandes con Rendimiento Casi Nativo

Brecha de Rendimiento Entre las Cuantizaciones MLX y GGUF

La fuente discute un problema de rendimiento significativo con los métodos de cuantización estándar de MLX para modelos de lenguaje grandes. En el benchmark MMLU (200 preguntas), MiniMax-M2.5 cuantizado a 4 bits para MLX obtuvo solo un 26.5% (53/200), mientras que el mismo modelo cuantizado con el método JANG_2S obtuvo un 74% (148/200). El método JANG superó a todos los niveles de cuantización de MLX (2 bits, 3 bits y 4 bits), que todos obtuvieron puntuaciones cercanas al azar, aproximadamente del 25%.

Resultados Específicos del Benchmark

El desglose detallado por materias del MMLU muestra que JANG_2L supera consistentemente a las cuantizaciones MLX:

Álgebra Abstracta: JANG_2L 10/20 vs MLX 4 bits 3/20
Astronomía: JANG_2L 20/20 vs MLX 4 bits 7/20
Informática Universitaria: JANG_2L 13/20 vs MLX 4 bits 4/20
Biología de Secundaria: JANG_2L 18/20 vs MLX 4 bits 4/20

La causa raíz identificada para el pobre rendimiento de MLX es que "MLX genera metanarración en lugar de respuestas directas en este modelo".

Comparaciones de Tamaño del Modelo y Rendimiento

Para el modelo Qwen 3.5 122B:

JANG_4K: 86% puntuación MMLU, 69 GB de tamaño
MLX 4 bits: 85% puntuación MMLU, 64 GB de tamaño
JANG_2S: 79% puntuación MMLU, 38 GB de tamaño
MLX 2 bits: 56.5% puntuación MMLU, 36 GB de tamaño

El autor señala que "La gente intercambia la velocidad del chip M por coherencia, sin un equivalente GGUF en MLX" y que "Qwen 3.5 en Macs cuando se usa GGUF también es 1/3 más lento que MLX".

Problema de Generación de Código de MiniMax-M2.5

De los benchmarks referenciados: "MiniMax-M2.5 no puede programar — 10% en HumanEval+ a pesar de un 87% en llamadas a herramientas y un 80% en razonamiento. Algo no funciona con su formato de generación de código. Sin embargo, es excelente para razonamiento."

Disponibilidad e Implementación

Actualmente disponible a través de:

MLX Studio: https://mlx.studio/ - tiene el motor de inferencia JANG_Q nativo
Repositorio: Para autoinstalación y cuantización de modelos

El método permite ejecutar modelos como MiniMax-M2.5 con un "equivalente de 2 bits de MLX mientras se obtienen resultados de prueba que simplemente no eran posibles antes en MLX".

📖 Read the full source: r/LocalLLaMA

El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes

Brecha de Rendimiento Entre las Cuantizaciones MLX y GGUF

Resultados Específicos del Benchmark

Comparaciones de Tamaño del Modelo y Rendimiento

Problema de Generación de Código de MiniMax-M2.5

Disponibilidad e Implementación

👀 Ver también

DocMason: Base de Conocimiento de Agente Local para Archivos de Oficina Complejos

La Habilidad de Clawhub Permite a OpenClaw Analizar Datos de Apple Health a través de API

AgentBnB: Red P2P para que los Agentes de OpenClaw Alquilen Habilidades

KubeShark: Una habilidad de Kubernetes para Claude Code y Codex para detectar YAML alucinado