El Método de Cuantización JANG Mejora el Rendimiento de MLX para Modelos Grandes

Brecha de Rendimiento Entre las Cuantizaciones MLX y GGUF
La fuente discute un problema de rendimiento significativo con los métodos de cuantización estándar de MLX para modelos de lenguaje grandes. En el benchmark MMLU (200 preguntas), MiniMax-M2.5 cuantizado a 4 bits para MLX obtuvo solo un 26.5% (53/200), mientras que el mismo modelo cuantizado con el método JANG_2S obtuvo un 74% (148/200). El método JANG superó a todos los niveles de cuantización de MLX (2 bits, 3 bits y 4 bits), que todos obtuvieron puntuaciones cercanas al azar, aproximadamente del 25%.
Resultados Específicos del Benchmark
El desglose detallado por materias del MMLU muestra que JANG_2L supera consistentemente a las cuantizaciones MLX:
- Álgebra Abstracta: JANG_2L 10/20 vs MLX 4 bits 3/20
- Astronomía: JANG_2L 20/20 vs MLX 4 bits 7/20
- Informática Universitaria: JANG_2L 13/20 vs MLX 4 bits 4/20
- Biología de Secundaria: JANG_2L 18/20 vs MLX 4 bits 4/20
La causa raíz identificada para el pobre rendimiento de MLX es que "MLX genera metanarración en lugar de respuestas directas en este modelo".
Comparaciones de Tamaño del Modelo y Rendimiento
Para el modelo Qwen 3.5 122B:
- JANG_4K: 86% puntuación MMLU, 69 GB de tamaño
- MLX 4 bits: 85% puntuación MMLU, 64 GB de tamaño
- JANG_2S: 79% puntuación MMLU, 38 GB de tamaño
- MLX 2 bits: 56.5% puntuación MMLU, 36 GB de tamaño
El autor señala que "La gente intercambia la velocidad del chip M por coherencia, sin un equivalente GGUF en MLX" y que "Qwen 3.5 en Macs cuando se usa GGUF también es 1/3 más lento que MLX".
Problema de Generación de Código de MiniMax-M2.5
De los benchmarks referenciados: "MiniMax-M2.5 no puede programar — 10% en HumanEval+ a pesar de un 87% en llamadas a herramientas y un 80% en razonamiento. Algo no funciona con su formato de generación de código. Sin embargo, es excelente para razonamiento."
Disponibilidad e Implementación
Actualmente disponible a través de:
- MLX Studio: https://mlx.studio/ - tiene el motor de inferencia JANG_Q nativo
- Repositorio: Para autoinstalación y cuantización de modelos
El método permite ejecutar modelos como MiniMax-M2.5 con un "equivalente de 2 bits de MLX mientras se obtienen resultados de prueba que simplemente no eran posibles antes en MLX".
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Prefex: Un Proxy Local para Claude Code que Automatiza el Almacenamiento en Caché de Prompts y la Memoria de Sesión
Prefex es un proxy local que se sitúa entre Claude Code y la API de Anthropic, inyectando automáticamente el encabezado requerido para la función beta de caché de prompts de Anthropic. También implementa memoria de sesión para evitar reenviar el historial completo de la conversación e incluye un enrutador de modelos para optimizar costos.

Dándole a Claude un LLM local como asistente mediante MCP en Mac
Un desarrollador conecta Claude a un Qwen 2.5 Coder 14B local mediante Ollama y MCP, creando un asistente sin costo para delegar tareas como procesamiento de texto y manejo de archivos grandes.

El repositorio de GitHub de Mejores Prácticas de Claude Code alcanza las 5,000 estrellas
Un repositorio de GitHub llamado 'claude-code-best-practice' ha alcanzado las 5,000 estrellas. El repositorio fue creado con Claude para documentar las mejores prácticas, consejos y flujos de trabajo tanto del creador como de la comunidad.

Codesight CLI reduce el uso de tokens de agentes de codificación con IA al escanear bases de código.
Codesight es una herramienta CLI sin dependencias que escanea proyectos de TypeScript, Python y Go para generar archivos de contexto compactos, reduciendo los tokens de exploración de Claude Code en 12.3× en promedio según benchmarks de codebases reales de producción.