Qwen3.5-122B-A10B-MINT-MLX: 39,58 Tokens/s no M5 Pro

Desempenho de LLM Local no Apple Silicon

Um usuário do Reddit compartilhou sua experiência executando o modelo Qwen3.5-122B-A10B-MINT-MLX localmente em um M5 Pro com 64GB de RAM. A configuração demonstra que grandes modelos de linguagem podem rodar efetivamente em hardware de consumo com configuração adequada.

Detalhes da Configuração

O usuário alcançou desempenho suave usando comandos específicos no terminal para alocação de VRAM:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

No LM Studio, eles definiram a janela de contexto para 16384 tokens. Com essa configuração, o sistema manteve desempenho estável enquanto rodava Safari com múltiplas abas, Mensagens e Activity Monitor simultaneamente.

Benchmarks de Desempenho

O modelo Qwen3.5-122B-A10B-MINT-MLX entregou:

Tempo para o Primeiro Token: 0,86 segundos
Velocidade de Geração de Tokens: 39,58 tokens/segundo

O usuário observou que o modelo "resolveu vários enigmas corretamente e fez um pouco de programação por intuição" sem reclamações sobre a quantização MINT de 3 bits. O único problema ocorreu quando a janela de contexto encheu perto de 59GB de uso de VRAM, causando travamento do sistema.

Comparação com Outros Modelos

O usuário também testou "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8", que considerou mais preciso que o modelo de 122B, mas significativamente mais lento:

Velocidade de Geração de Tokens: 6,93 tokens/segundo
O processamento de prompts permaneceu rápido apesar da geração mais lenta

Isso demonstra a troca entre tamanho do modelo, quantização e velocidade de inferência que os desenvolvedores enfrentam ao escolher configurações de LLM local.

📖 Leia a fonte completa: r/LocalLLaMA