M5 Max vs M3 Max: Inferencia 1.7x Más Rápida en Qwen con oMLX

El usuario de Reddit /u/onil_gova ejecutó puntos de referencia de inferencia comparando las MacBook Pro de 16 pulgadas con procesadores M5 Max y M3 Max, ambas equipadas con 40 núcleos GPU y 128 GB de memoria unificada. Las pruebas utilizaron oMLX v0.2.23 y tres modelos Qwen 3.5: el MoE 122B-A10B, el MoE 35B-A3B y el denso 27B.

Resultados de los puntos de referencia

En pp1024/tg128 (longitud de procesamiento de prompt 1024, longitud de generación de tokens 128), la M5 Max mostró mejoras de velocidad significativas:

35B-A3B MoE: 134.5 vs 80.3 tg tok/s (1.7x más rápido)
122B-A10B MoE: 65.3 vs 46.1 tg tok/s (1.4x más rápido)
27B denso: 32.8 vs 23.0 tg tok/s (1.4x más rápido)

La brecha de rendimiento se amplía con contextos más largos. Con una longitud de contexto de 65K, el modelo denso 27B bajó a 6.8 tg tok/s en la M3 Max frente a 19.6 tg tok/s en la M5 Max (diferencia de 2.9x).

Rendimiento de Prellenado y Procesamiento por Lotes

Las ventajas en el prellenado fueron aún mayores, alcanzando hasta 4 veces más rápido en la M5 Max con longitudes de contexto largas, atribuido a los Aceleradores Neuronales GPU del M5 Max.

El rendimiento del procesamiento por lotes mostró diferencias importantes para cargas de trabajo agentivas:

La M5 Max escaló a un rendimiento de 2.54x con un tamaño de lote 4x en el modelo 35B-A3B
El procesamiento por lotes en la M3 Max con modelos densos degradó el rendimiento (0.80x con lote 2x en el modelo 122B)

La diferencia de ancho de banda (614 GB/s en M5 Max vs 400 GB/s en M3 Max) es significativa para bucles de agentes de múltiples pasos o llamadas a herramientas paralelas.

Perspectivas sobre la Eficiencia de MoE

Los puntos de referencia revelaron que el modelo 122B (con 10B parámetros activos) genera más rápido que el modelo denso 27B en ambas máquinas. Esto demuestra que el recuento de parámetros activos determina la velocidad de inferencia, no el tamaño total del modelo.

El desglose interactivo completo con todos los gráficos y datos está disponible en: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX

Resultados de los puntos de referencia

Rendimiento de Prellenado y Procesamiento por Lotes

Perspectivas sobre la Eficiencia de MoE

👀 Ver también

Plan Claude Max 20x: No se aplican aumentos de límite pese a anuncios — Usuario confirma con matemáticas

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo

TranslateGemma-12b: La revisión humana detecta el 71% de errores que pasan desapercibidos para las métricas automatizadas

La Actividad DNS de Anthropic Revela Nuevo Servicio STT, API RC2 e Infraestructura de Túnel