Benchmark Qwen3-VL: M3 vs M4 vs M5 Max no Apple Silicon

Configuração do Benchmark e Hardware

Um pipeline de classificação de LLM visionário foi testado em desenhos técnicos (PDFs em várias resoluções de megapixels) usando LM Studio com backend MLX, streaming habilitado, mesmo conjunto de teste de 53 arquivos e mesmo prompt. A tarefa envolve classificação onde o modelo analisa uma imagem e retorna uma resposta JSON estruturada curta (~300-400 tokens), tornando a inferência dominada pelo preenchimento com geração mínima de tokens.

Hardware testado:

M3 Max: 40 núcleos GPU, 48 GB RAM, 400 GB/s de largura de banda de memória
M4 Max Studio: 40 núcleos GPU, 64 GB RAM, 546 GB/s de largura de banda de memória
M5 Max: 40 núcleos GPU, 64 GB RAM, 614 GB/s de largura de banda de memória

Modelos Testados

Qwen3-VL 8B: 8B parâmetros, quantização MLX de 4 bits, ~5,8 GB em disco
Qwen3.5 9B: 9B parâmetros (denso, atenção híbrida), quantização MLX de 4 bits, ~6,2 GB em disco
Qwen3-VL 32B: 32B parâmetros, quantização MLX de 4 bits, ~18 GB em disco

Resultados do Modelo 8B

Tempo total por imagem para Qwen3-VL 8B (4 bits):

4 MP: M3 Max 48GB: 16,5s, M4 Studio 64GB: 15,8s, M5 Max 64GB: 9,0s (M5 é 83% mais rápido que M3)
5 MP: M3 Max: 20,3s, M4 Studio: 19,8s, M5 Max: 11,5s (77% mais rápido)
6 MP: M3 Max: 24,1s, M4 Studio: 24,4s, M5 Max: 14,0s (72% mais rápido)
7,5 MP: M4 Studio: 32,7s, M5 Max: 20,3s

O M3 Max e o M4 Studio são basicamente idênticos no modelo 8B, com tempo total de inferência dentro de 3-5% apesar do M4 ter 37% mais largura de banda de memória. O M5 Max é aproximadamente 75-83% mais rápido que ambos.

Por que M3 e M4 Têm Velocidade Semelhante

O preenchimento (processamento do prompt) escala com núcleos de computação GPU, não com largura de banda de memória. Ambos os chips têm 40 núcleos GPU, então a velocidade de preenchimento é idêntica. Para modelos visuais, o preenchimento domina: TTFT (tempo para o primeiro token) é 70-85% do tempo total de inferência porque o codificador visual faz trabalho computacional pesado por imagem.

O M4 mostra sua vantagem de largura de banda na geração de tokens: 76-80 T/s vs 60-64 T/s do M3 (25% mais rápido), correspondendo à diferença de 37% na largura de banda (546 vs 400 GB/s). No entanto, para tarefas de classificação com saídas curtas (~300-400 tokens), a geração é apenas ~15% do tempo total, fazendo com que a vantagem de 25% na velocidade de geração se traduza em apenas 3-5% de melhoria de ponta a ponta.

Resultados do Modelo 32B

Tempo total por imagem para Qwen3-VL 32B (4 bits):

2 MP: M3 Max 48GB: 47,6s, M4 Studio 64GB: 35,3s, M5 Max 64GB: 21,2s
4 MP: M3 Max: 63,2s, M4 Studio: 50,0s, M5 Max: 27,4s
5 MP: M3 Max: 72,9s, M4 Studio: 59,2s, M5 Max: 30,7s
6 MP: M3 Max: 85,3s, M4 Studio: 78,0s, M5 Max: 35,6s

Para tarefas de geração mais longas como sumarização, descrição ou geração de código, a vantagem de largura de banda do M4 importaria mais do que nesta carga de trabalho de classificação.

📖 Read the full source: r/LocalLLaMA