Benchmark de Apple Silicon: Rendimiento de Qwen3-VL en M3, M4 y M5 Max para Clasificación de Vision LLM

Configuración de Referencia y Hardware
Se probó una canalización de clasificación de LLM de visión en dibujos técnicos (PDFs a varias resoluciones de megapíxeles) usando LM Studio con backend MLX, transmisión habilitada, mismo conjunto de datos de prueba de 53 archivos y el mismo prompt. La tarea implica clasificación donde el modelo analiza una imagen y devuelve una respuesta JSON estructurada corta (~300-400 tokens), haciendo que la inferencia esté dominada por el prellenado con generación mínima de tokens.
Hardware probado:
- M3 Max: 40 núcleos GPU, 48 GB RAM, 400 GB/s ancho de banda de memoria
- M4 Max Studio: 40 núcleos GPU, 64 GB RAM, 546 GB/s ancho de banda de memoria
- M5 Max: 40 núcleos GPU, 64 GB RAM, 614 GB/s ancho de banda de memoria
Modelos Probados
- Qwen3-VL 8B: 8B parámetros, cuantización MLX de 4 bits, ~5.8 GB en disco
- Qwen3.5 9B: 9B parámetros (denso, atención híbrida), cuantización MLX de 4 bits, ~6.2 GB en disco
- Qwen3-VL 32B: 32B parámetros, cuantización MLX de 4 bits, ~18 GB en disco
Resultados del Modelo 8B
Tiempo total por imagen para Qwen3-VL 8B (4 bits):
- 4 MP: M3 Max 48GB: 16.5s, M4 Studio 64GB: 15.8s, M5 Max 64GB: 9.0s (M5 es 83% más rápido que M3)
- 5 MP: M3 Max: 20.3s, M4 Studio: 19.8s, M5 Max: 11.5s (77% más rápido)
- 6 MP: M3 Max: 24.1s, M4 Studio: 24.4s, M5 Max: 14.0s (72% más rápido)
- 7.5 MP: M4 Studio: 32.7s, M5 Max: 20.3s
El M3 Max y M4 Studio son básicamente idénticos en el modelo 8B, con tiempo total de inferencia dentro del 3-5% a pesar de que M4 tiene 37% más ancho de banda de memoria. El M5 Max es aproximadamente 75-83% más rápido que ambos.
Por Qué M3 y M4 Tienen Velocidad Similar
El prellenado (procesamiento del prompt) escala con los núcleos de computación GPU, no con el ancho de banda de memoria. Ambos chips tienen 40 núcleos GPU, por lo que la velocidad de prellenado es idéntica. Para modelos de visión, el prellenado domina: TTFT (tiempo hasta el primer token) es 70-85% del tiempo total de inferencia porque el codificador de visión realiza un trabajo computacional pesado por imagen.
El M4 sí muestra su ventaja de ancho de banda en la generación de tokens: 76-80 T/s vs 60-64 T/s del M3 (25% más rápido), coincidiendo con la brecha de ancho de banda del 37% (546 vs 400 GB/s). Sin embargo, para tareas de clasificación con salidas cortas (~300-400 tokens), la generación es solo ~15% del tiempo total, haciendo que la ventaja de velocidad de generación del 25% se traduzca en solo una mejora de 3-5% de extremo a extremo.
Resultados del Modelo 32B
Tiempo total por imagen para Qwen3-VL 32B (4 bits):
- 2 MP: M3 Max 48GB: 47.6s, M4 Studio 64GB: 35.3s, M5 Max 64GB: 21.2s
- 4 MP: M3 Max: 63.2s, M4 Studio: 50.0s, M5 Max: 27.4s
- 5 MP: M3 Max: 72.9s, M4 Studio: 59.2s, M5 Max: 30.7s
- 6 MP: M3 Max: 85.3s, M4 Studio: 78.0s, M5 Max: 35.6s
Para tareas de generación más largas como resumen, descripción o generación de código, la ventaja de ancho de banda del M4 importaría más que en esta carga de trabajo de clasificación.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

OpenClaw Client Añade Seguimiento de Costos y Límites de Gasto por Agente
La nueva versión añade límites de gasto por agente, interfaz de uso en vivo con barra de progreso circular, gestión de subagentes, activación de habilidades y selección de modelo por agente.

Anthropic restringe el uso de suscripciones a Claude en herramientas de terceros como OpenClaw.
Anthropic está cambiando su política de suscripción de Claude para bloquear el uso en herramientas de terceros como OpenClaw, requiriendo facturación por uso separada para estas herramientas a partir del 4 de abril. La empresa ofrece un crédito único equivalente al precio mensual de suscripción y descuentos de hasta el 30% en compras anticipadas.

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas
Los usuarios de OpenClaw reportan errores persistentes HTTP 422 con los modelos Mistral desde la actualización 2026.3.8, sin correcciones en las versiones posteriores hasta la 2026.3.13. El problema afecta toda la funcionalidad relacionada con Mistral, mientras que las llamadas directas a la API funcionan con normalidad.

Código Filtrado de Claude Revela el Sistema KAIROS y la Brecha de Verificación en Agentes de IA
Un mapa de código fuente filtrado de Claude Code reveló 512 mil líneas de TypeScript, 44 banderas de características y KAIROS, un agente en segundo plano que consolida la memoria durante el tiempo de inactividad. Un desarrollador independiente creó un demonio similar para encadenar sesiones en campañas de varios días, pero descubrió que una compilación exitosa no garantiza un código funcional.