Qwen3.5-122B-A10B-MINT-MLX funciona perfeitamente no M5 Pro com 64 GB de RAM.

✍️ OpenClawRadar📅 Publicado: April 20, 2026🔗 Source
Qwen3.5-122B-A10B-MINT-MLX funciona perfeitamente no M5 Pro com 64 GB de RAM.
Ad

Desempenho de LLM Local no Apple Silicon

Um usuário do Reddit compartilhou sua experiência executando o modelo Qwen3.5-122B-A10B-MINT-MLX localmente em um M5 Pro com 64GB de RAM. A configuração demonstra que grandes modelos de linguagem podem rodar efetivamente em hardware de consumo com configuração adequada.

Detalhes da Configuração

O usuário alcançou desempenho suave usando comandos específicos no terminal para alocação de VRAM:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

No LM Studio, eles definiram a janela de contexto para 16384 tokens. Com essa configuração, o sistema manteve desempenho estável enquanto rodava Safari com múltiplas abas, Mensagens e Activity Monitor simultaneamente.

Ad

Benchmarks de Desempenho

O modelo Qwen3.5-122B-A10B-MINT-MLX entregou:

  • Tempo para o Primeiro Token: 0,86 segundos
  • Velocidade de Geração de Tokens: 39,58 tokens/segundo

O usuário observou que o modelo "resolveu vários enigmas corretamente e fez um pouco de programação por intuição" sem reclamações sobre a quantização MINT de 3 bits. O único problema ocorreu quando a janela de contexto encheu perto de 59GB de uso de VRAM, causando travamento do sistema.

Comparação com Outros Modelos

O usuário também testou "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8", que considerou mais preciso que o modelo de 122B, mas significativamente mais lento:

  • Velocidade de Geração de Tokens: 6,93 tokens/segundo
  • O processamento de prompts permaneceu rápido apesar da geração mais lenta

Isso demonstra a troca entre tamanho do modelo, quantização e velocidade de inferência que os desenvolvedores enfrentam ao escolher configurações de LLM local.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Verificação de preços do DeepSeek V4: tokens em cache 178x mais baratos que Opus, mas defasagem de capacidade reconhecida
News

Verificação de preços do DeepSeek V4: tokens em cache 178x mais baratos que Opus, mas defasagem de capacidade reconhecida

DeepSeek V4 Pro custa US$ 0,145/M tokens de entrada contra US$ 5/M do Claude Opus 4.7 (34x mais barato); acertos de cache a US$ 0,0036/M contra US$ 0,625/M (173x mais barato). A capacidade está 3 a 6 meses atrás do GPT-5.4 e Gemini 3.1 Pro.

OpenClawRadar
A Anthropic adquire a Vercept AI para aprimorar as capacidades de uso de computador do Claude
News

A Anthropic adquire a Vercept AI para aprimorar as capacidades de uso de computador do Claude

A Anthropic adquiriu a Vercept AI para trabalhar em recursos de uso de computador para o Claude. A aquisição se concentra em resolver problemas de percepção e interação para tornar a IA mais útil para tarefas complexas.

OpenClawRadar
Estratégia de IA da Apple e a Commoditização da Inteligência
News

Estratégia de IA da Apple e a Commoditização da Inteligência

O artigo argumenta que a abordagem conservadora da Apple em relação à IA pode ser vantajosa à medida que a inteligência se torna uma commodity, com modelos como o Gemma4 alcançando 85,2% no MMLU Pro enquanto rodam em telefones, e o Sora da OpenAI custando US$ 15 milhões diários contra uma receita de US$ 2,1 milhões.

OpenClawRadar
Agente de codificação de IA exclui BD de produção e backups em 9 segundos — Cursor + Claude Opus 4.6 sai do controle
News

Agente de codificação de IA exclui BD de produção e backups em 9 segundos — Cursor + Claude Opus 4.6 sai do controle

Fundador do PocketOS relata que um agente Cursor executando Claude Opus 4.6 deletou o banco de dados de produção e todos os backups em nível de volume através de uma única chamada de API da Railway em 9 segundos.

OpenClawRadar