O Método de Quantização JANG Melhora o Desempenho do MLX para Modelos Grandes

✍️ OpenClawRadar📅 Publicado: April 18, 2026🔗 Source
O Método de Quantização JANG Melhora o Desempenho do MLX para Modelos Grandes
Ad

Diferença de Desempenho Entre Quantizações MLX e GGUF

A fonte discute um problema significativo de desempenho com os métodos padrão de quantização MLX para modelos de linguagem grandes. No benchmark MMLU (200 perguntas), o MiniMax-M2.5 quantizado para 4 bits no MLX obteve apenas 26,5% (53/200), enquanto o mesmo modelo quantizado com o método JANG_2S obteve 74% (148/200). O método JANG superou todos os níveis de quantização MLX (2 bits, 3 bits e 4 bits), que todos pontuaram perto do acaso aleatório, aproximadamente 25%.

Resultados Específicos de Benchmark

O detalhamento por assunto do MMLU mostra que o JANG_2L supera consistentemente as quantizações MLX:

  • Álgebra Abstrata: JANG_2L 10/20 vs MLX 4 bits 3/20
  • Astronomia: JANG_2L 20/20 vs MLX 4 bits 7/20
  • Ciência da Computação Universitária: JANG_2L 13/20 vs MLX 4 bits 4/20
  • Biologia do Ensino Médio: JANG_2L 18/20 vs MLX 4 bits 4/20

A causa raiz identificada para o fraco desempenho do MLX é que "o MLX gera metacomentários em vez de respostas diretas neste modelo".

Ad

Comparações de Tamanho e Desempenho do Modelo

Para o modelo Qwen 3.5 122B:

  • JANG_4K: 86% pontuação MMLU, 69 GB de tamanho
  • MLX 4 bits: 85% pontuação MMLU, 64 GB de tamanho
  • JANG_2S: 79% pontuação MMLU, 38 GB de tamanho
  • MLX 2 bits: 56,5% pontuação MMLU, 36 GB de tamanho

O autor observa que "As pessoas trocam a velocidade do chip M por coerência, sem equivalente GGUF no MLX" e que "O Qwen 3.5 em Macs ao usar GGUF também é 1/3 mais lento do que o MLX".

Problema de Geração de Código do MiniMax-M2.5

Dos benchmarks referenciados: "O MiniMax-M2.5 não consegue programar — 10% no HumanEval+ apesar de 87% de chamada de ferramentas e 80% de raciocínio. Algo está errado com seu formato de geração de código. Ótimo para raciocínio, porém."

Disponibilidade e Implementação

Atualmente disponível através de:

  • MLX Studio: https://mlx.studio/ - possui o motor de inferência JANG_Q nativo
  • Repositório: Para autoinstalação e quantização de modelos

O método permite executar modelos como o MiniMax-M2.5 com "equivalente a 2 bits MLX enquanto obtém resultados de teste que simplesmente não eram possíveis antes no MLX".

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Pipeline de Tradução de Livros Locais Utiliza Qwen 32B e Mistral 24B com RAG Contextual
Tools

Pipeline de Tradução de Livros Locais Utiliza Qwen 32B e Mistral 24B com RAG Contextual

Um desenvolvedor criou um pipeline de tradução de livros totalmente local e automatizado que converte arquivos PDF para o formato ePub usando oito scripts Python. O sistema aborda problemas comuns de tradução, como perda de contexto e problemas de formatação, por meio de um fluxo de trabalho em várias etapas.

OpenClawRadar
Bugs no analisador do LM Studio quebram a chamada de ferramentas e o raciocínio do Qwen3.5
Tools

Bugs no analisador do LM Studio quebram a chamada de ferramentas e o raciocínio do Qwen3.5

O analisador do servidor do LM Studio tem três bugs interagentes que quebram silenciosamente a chamada de ferramentas, corrompem a saída de raciocínio e fazem os modelos parecerem piores do que realmente são. Os problemas afetam modelos de raciocínio como Qwen3.5 e DeepSeek-R1, com um bug relatado há mais de um ano ainda não resolvido.

OpenClawRadar
Estrutura de Equipe de Pesquisa em uma Caixa para Claude Code Usando Arquitetura Multiagente
Tools

Estrutura de Equipe de Pesquisa em uma Caixa para Claude Code Usando Arquitetura Multiagente

Um desenvolvedor criou um framework de pesquisa multiagente para Claude Code que utiliza o Opus 4.6 para coordenar agentes especializados por meio de um plugin chamado research-clab. O framework se desenvolve através de um processo guiado de perguntas e respostas e inclui 11 habilidades, definições de agentes e diretórios estruturados para gerenciar projetos de pesquisa complexos.

OpenClawRadar
🦀
Tools

Integração xAI TTS para Home Assistant construída com Claude — Repositório Completo

Um desenvolvedor usou Claude para criar uma integração personalizada para Home Assistant com a API TTS da xAI (voz Eve), incluindo configuração completa por interface, cinco vozes e tags de fala.

OpenClawRadar