Benchmark do Apple Silicon: Desempenho do Qwen3-VL em M3, M4 e M5 Max para Classificação com Vision LLM

Configuração do Benchmark e Hardware
Um pipeline de classificação de LLM visionário foi testado em desenhos técnicos (PDFs em várias resoluções de megapixels) usando LM Studio com backend MLX, streaming habilitado, mesmo conjunto de teste de 53 arquivos e mesmo prompt. A tarefa envolve classificação onde o modelo analisa uma imagem e retorna uma resposta JSON estruturada curta (~300-400 tokens), tornando a inferência dominada pelo preenchimento com geração mínima de tokens.
Hardware testado:
- M3 Max: 40 núcleos GPU, 48 GB RAM, 400 GB/s de largura de banda de memória
- M4 Max Studio: 40 núcleos GPU, 64 GB RAM, 546 GB/s de largura de banda de memória
- M5 Max: 40 núcleos GPU, 64 GB RAM, 614 GB/s de largura de banda de memória
Modelos Testados
- Qwen3-VL 8B: 8B parâmetros, quantização MLX de 4 bits, ~5,8 GB em disco
- Qwen3.5 9B: 9B parâmetros (denso, atenção híbrida), quantização MLX de 4 bits, ~6,2 GB em disco
- Qwen3-VL 32B: 32B parâmetros, quantização MLX de 4 bits, ~18 GB em disco
Resultados do Modelo 8B
Tempo total por imagem para Qwen3-VL 8B (4 bits):
- 4 MP: M3 Max 48GB: 16,5s, M4 Studio 64GB: 15,8s, M5 Max 64GB: 9,0s (M5 é 83% mais rápido que M3)
- 5 MP: M3 Max: 20,3s, M4 Studio: 19,8s, M5 Max: 11,5s (77% mais rápido)
- 6 MP: M3 Max: 24,1s, M4 Studio: 24,4s, M5 Max: 14,0s (72% mais rápido)
- 7,5 MP: M4 Studio: 32,7s, M5 Max: 20,3s
O M3 Max e o M4 Studio são basicamente idênticos no modelo 8B, com tempo total de inferência dentro de 3-5% apesar do M4 ter 37% mais largura de banda de memória. O M5 Max é aproximadamente 75-83% mais rápido que ambos.
Por que M3 e M4 Têm Velocidade Semelhante
O preenchimento (processamento do prompt) escala com núcleos de computação GPU, não com largura de banda de memória. Ambos os chips têm 40 núcleos GPU, então a velocidade de preenchimento é idêntica. Para modelos visuais, o preenchimento domina: TTFT (tempo para o primeiro token) é 70-85% do tempo total de inferência porque o codificador visual faz trabalho computacional pesado por imagem.
O M4 mostra sua vantagem de largura de banda na geração de tokens: 76-80 T/s vs 60-64 T/s do M3 (25% mais rápido), correspondendo à diferença de 37% na largura de banda (546 vs 400 GB/s). No entanto, para tarefas de classificação com saídas curtas (~300-400 tokens), a geração é apenas ~15% do tempo total, fazendo com que a vantagem de 25% na velocidade de geração se traduza em apenas 3-5% de melhoria de ponta a ponta.
Resultados do Modelo 32B
Tempo total por imagem para Qwen3-VL 32B (4 bits):
- 2 MP: M3 Max 48GB: 47,6s, M4 Studio 64GB: 35,3s, M5 Max 64GB: 21,2s
- 4 MP: M3 Max: 63,2s, M4 Studio: 50,0s, M5 Max: 27,4s
- 5 MP: M3 Max: 72,9s, M4 Studio: 59,2s, M5 Max: 30,7s
- 6 MP: M3 Max: 85,3s, M4 Studio: 78,0s, M5 Max: 35,6s
Para tarefas de geração mais longas como sumarização, descrição ou geração de código, a vantagem de largura de banda do M4 importaria mais do que nesta carga de trabalho de classificação.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade
Os fundadores da Codestrap argumentam que as ferramentas de IA para programação estão sendo avaliadas incorretamente com métricas como linhas de código e pull requests, enquanto métricas de qualidade revelam problemas como uma base de código 3,7 vezes maior com desempenho 2.000 vezes pior em uma reescrita de SQLite para Rust.

Opus 4.7 Injeta-se a si mesmo e Vaza o Prompt do Sistema
Usuários do Claude Opus 4.7 relatam que o modelo está injetando prompts falsos do sistema e vazando partes dos prompts reais sem qualquer gatilho do usuário.

Agências Federais Recebem Ordem para Cessar o Uso da Tecnologia de IA da Anthropic
O presidente Donald Trump ordenou que as agências do governo dos EUA parem imediatamente de usar a tecnologia da empresa de IA Anthropic. A ordem surge enquanto a Anthropic enfrenta pressão do Departamento de Defesa sobre restrições de uso de seus modelos de IA.

Executando o OpenClawd Gratuitamente: Sucessos e Desafios
Em uma publicação recente no r/clawdbot, um membro compartilha sua experiência ao executar o OpenClawd sem chaves de API, discutindo seus sucessos e os desafios enfrentados.