Qwen3.5-122B-A10B-MINT-MLX en M5 Pro: 39.58 tokens/s

Rendimiento de LLM Local en Apple Silicon

Un usuario de Reddit ha compartido su experiencia ejecutando el modelo Qwen3.5-122B-A10B-MINT-MLX localmente en un M5 Pro con 64 GB de RAM. La configuración demuestra que los modelos de lenguaje grandes pueden ejecutarse eficazmente en hardware de consumo con la configuración adecuada.

Detalles de Configuración

El usuario logró un rendimiento fluido utilizando comandos específicos de terminal para la asignación de VRAM:

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

En LM Studio, configuraron la ventana de contexto a 16384 tokens. Con esta configuración, el sistema mantuvo un rendimiento estable mientras ejecutaba Safari con múltiples pestañas, Mensajes y el Monitor de Actividad simultáneamente.

Puntos de Referencia de Rendimiento

El modelo Qwen3.5-122B-A10B-MINT-MLX entregó:

Tiempo para el Primer Token: 0.86 segundos
Velocidad de Generación de Tokens: 39.58 tokens/segundo

El usuario señaló que el modelo "resolvió un montón de acertijos correctamente e hizo un poco de programación de ambiente" sin quejas sobre la cuantización MINT de 3 bits. El único problema ocurrió cuando la ventana de contexto se llenó cerca del uso de 59 GB de VRAM, causando un bloqueo del sistema.

Comparación con Otros Modelos

El usuario también probó "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8", que encontró más preciso que el modelo de 122B pero significativamente más lento:

Velocidad de Generación de Tokens: 6.93 tokens/segundo
El procesamiento de indicaciones se mantuvo rápido a pesar de la generación más lenta

Esto demuestra la compensación entre el tamaño del modelo, la cuantización y la velocidad de inferencia que los desarrolladores enfrentan al elegir configuraciones de LLM locales.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-122B-A10B-MINT-MLX se ejecuta sin problemas en M5 Pro con 64 GB de RAM.

Rendimiento de LLM Local en Apple Silicon

Detalles de Configuración

Puntos de Referencia de Rendimiento

Comparación con Otros Modelos

👀 Ver también

Domo CDO: Detén el FOMO de la IA, comienza con hojas de cálculo

La Nueva Lanzamiento de OpenClaw: ¿Un Simple Cambio de Nombre o una Gran Actualización?

DeepSeek v4 Flash en Mac Studio: LLM local encuentra errores reales en código de compilador

Claude AI recupera una cartera de Bitcoin de 11 años valorada en $400K al encontrar una copia de seguridad y corregir un error de fuerza bruta