Qwen3-VL Benchmark en M3, M4 y M5 Max: ¿Cuál es más rápido?

Configuración de Referencia y Hardware

Se probó una canalización de clasificación de LLM de visión en dibujos técnicos (PDFs a varias resoluciones de megapíxeles) usando LM Studio con backend MLX, transmisión habilitada, mismo conjunto de datos de prueba de 53 archivos y el mismo prompt. La tarea implica clasificación donde el modelo analiza una imagen y devuelve una respuesta JSON estructurada corta (~300-400 tokens), haciendo que la inferencia esté dominada por el prellenado con generación mínima de tokens.

Hardware probado:

M3 Max: 40 núcleos GPU, 48 GB RAM, 400 GB/s ancho de banda de memoria
M4 Max Studio: 40 núcleos GPU, 64 GB RAM, 546 GB/s ancho de banda de memoria
M5 Max: 40 núcleos GPU, 64 GB RAM, 614 GB/s ancho de banda de memoria

Modelos Probados

Qwen3-VL 8B: 8B parámetros, cuantización MLX de 4 bits, ~5.8 GB en disco
Qwen3.5 9B: 9B parámetros (denso, atención híbrida), cuantización MLX de 4 bits, ~6.2 GB en disco
Qwen3-VL 32B: 32B parámetros, cuantización MLX de 4 bits, ~18 GB en disco

Resultados del Modelo 8B

Tiempo total por imagen para Qwen3-VL 8B (4 bits):

4 MP: M3 Max 48GB: 16.5s, M4 Studio 64GB: 15.8s, M5 Max 64GB: 9.0s (M5 es 83% más rápido que M3)
5 MP: M3 Max: 20.3s, M4 Studio: 19.8s, M5 Max: 11.5s (77% más rápido)
6 MP: M3 Max: 24.1s, M4 Studio: 24.4s, M5 Max: 14.0s (72% más rápido)
7.5 MP: M4 Studio: 32.7s, M5 Max: 20.3s

El M3 Max y M4 Studio son básicamente idénticos en el modelo 8B, con tiempo total de inferencia dentro del 3-5% a pesar de que M4 tiene 37% más ancho de banda de memoria. El M5 Max es aproximadamente 75-83% más rápido que ambos.

Por Qué M3 y M4 Tienen Velocidad Similar

El prellenado (procesamiento del prompt) escala con los núcleos de computación GPU, no con el ancho de banda de memoria. Ambos chips tienen 40 núcleos GPU, por lo que la velocidad de prellenado es idéntica. Para modelos de visión, el prellenado domina: TTFT (tiempo hasta el primer token) es 70-85% del tiempo total de inferencia porque el codificador de visión realiza un trabajo computacional pesado por imagen.

El M4 sí muestra su ventaja de ancho de banda en la generación de tokens: 76-80 T/s vs 60-64 T/s del M3 (25% más rápido), coincidiendo con la brecha de ancho de banda del 37% (546 vs 400 GB/s). Sin embargo, para tareas de clasificación con salidas cortas (~300-400 tokens), la generación es solo ~15% del tiempo total, haciendo que la ventaja de velocidad de generación del 25% se traduzca en solo una mejora de 3-5% de extremo a extremo.

Resultados del Modelo 32B

Tiempo total por imagen para Qwen3-VL 32B (4 bits):

2 MP: M3 Max 48GB: 47.6s, M4 Studio 64GB: 35.3s, M5 Max 64GB: 21.2s
4 MP: M3 Max: 63.2s, M4 Studio: 50.0s, M5 Max: 27.4s
5 MP: M3 Max: 72.9s, M4 Studio: 59.2s, M5 Max: 30.7s
6 MP: M3 Max: 85.3s, M4 Studio: 78.0s, M5 Max: 35.6s

Para tareas de generación más largas como resumen, descripción o generación de código, la ventaja de ancho de banda del M4 importaría más que en esta carga de trabajo de clasificación.

📖 Read the full source: r/LocalLLaMA

Benchmark de Apple Silicon: Rendimiento de Qwen3-VL en M3, M4 y M5 Max para Clasificación de Vision LLM

Configuración de Referencia y Hardware

Modelos Probados

Resultados del Modelo 8B

Por Qué M3 y M4 Tienen Velocidad Similar

Resultados del Modelo 32B

👀 Ver también

Por qué escribir código en 2026: La codificación humana sigue siendo importante para los agentes de IA

El Claude de Anthropic Realiza 80,000 Entrevistas Estructuradas como Alternativa a las Encuestas

xAI pierde desafío legal contra la ley de divulgación de datos de IA en California

Crítica del Límite de Abstracción y del Enfoque de Integración de Servicios del MCP