M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX

El usuario de Reddit /u/onil_gova ejecutó puntos de referencia de inferencia comparando las MacBook Pro de 16 pulgadas con procesadores M5 Max y M3 Max, ambas equipadas con 40 núcleos GPU y 128 GB de memoria unificada. Las pruebas utilizaron oMLX v0.2.23 y tres modelos Qwen 3.5: el MoE 122B-A10B, el MoE 35B-A3B y el denso 27B.
Resultados de los puntos de referencia
En pp1024/tg128 (longitud de procesamiento de prompt 1024, longitud de generación de tokens 128), la M5 Max mostró mejoras de velocidad significativas:
- 35B-A3B MoE: 134.5 vs 80.3 tg tok/s (1.7x más rápido)
- 122B-A10B MoE: 65.3 vs 46.1 tg tok/s (1.4x más rápido)
- 27B denso: 32.8 vs 23.0 tg tok/s (1.4x más rápido)
La brecha de rendimiento se amplía con contextos más largos. Con una longitud de contexto de 65K, el modelo denso 27B bajó a 6.8 tg tok/s en la M3 Max frente a 19.6 tg tok/s en la M5 Max (diferencia de 2.9x).
Rendimiento de Prellenado y Procesamiento por Lotes
Las ventajas en el prellenado fueron aún mayores, alcanzando hasta 4 veces más rápido en la M5 Max con longitudes de contexto largas, atribuido a los Aceleradores Neuronales GPU del M5 Max.
El rendimiento del procesamiento por lotes mostró diferencias importantes para cargas de trabajo agentivas:
- La M5 Max escaló a un rendimiento de 2.54x con un tamaño de lote 4x en el modelo 35B-A3B
- El procesamiento por lotes en la M3 Max con modelos densos degradó el rendimiento (0.80x con lote 2x en el modelo 122B)
La diferencia de ancho de banda (614 GB/s en M5 Max vs 400 GB/s en M3 Max) es significativa para bucles de agentes de múltiples pasos o llamadas a herramientas paralelas.
Perspectivas sobre la Eficiencia de MoE
Los puntos de referencia revelaron que el modelo 122B (con 10B parámetros activos) genera más rápido que el modelo denso 27B en ambas máquinas. Esto demuestra que el recuento de parámetros activos determina la velocidad de inferencia, no el tamaño total del modelo.
El desglose interactivo completo con todos los gráficos y datos está disponible en: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Por Qué la Arquitectura Open Source de OpenClaw Importa

Google dona el Protocolo de Pagos con Agentes (AP2) a la Alianza FIDO y publica la versión 0.2 con pagos "Humano No Presente"
Google dona el Protocolo de Pagos para Agentes (AP2) a la Alianza FIDO y publica la versión 0.2 con soporte para pagos autónomos 'Human Not Present' y un nuevo estándar de Intención Verificable desarrollado conjuntamente con Mastercard.

Alto funcionario gubernamental de IA desconoce los LLM locales: relato de un desarrollador
Un desarrollador de LLM local informa que un alto líder gubernamental de IA no sabía por qué las empresas elegirían LLM locales sobre APIs en la nube, a pesar de comprender los conceptos técnicos básicos.

La paradoja de construir vs. comprar en la era de los agentes de IA
Desarrolladores que ganan $100/hora pasan rutinariamente más de 10 horas construyendo con Claude y n8n para evitar pagar $30–50/mes por un producto funcional, ignorando el costo de oportunidad de $1,000+.