Qwen3.5-122B-A10B-MINT-MLX se ejecuta sin problemas en M5 Pro con 64 GB de RAM.

Rendimiento de LLM Local en Apple Silicon
Un usuario de Reddit ha compartido su experiencia ejecutando el modelo Qwen3.5-122B-A10B-MINT-MLX localmente en un M5 Pro con 64 GB de RAM. La configuración demuestra que los modelos de lenguaje grandes pueden ejecutarse eficazmente en hardware de consumo con la configuración adecuada.
Detalles de Configuración
El usuario logró un rendimiento fluido utilizando comandos específicos de terminal para la asignación de VRAM:
sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440
En LM Studio, configuraron la ventana de contexto a 16384 tokens. Con esta configuración, el sistema mantuvo un rendimiento estable mientras ejecutaba Safari con múltiples pestañas, Mensajes y el Monitor de Actividad simultáneamente.
Puntos de Referencia de Rendimiento
El modelo Qwen3.5-122B-A10B-MINT-MLX entregó:
- Tiempo para el Primer Token: 0.86 segundos
- Velocidad de Generación de Tokens: 39.58 tokens/segundo
El usuario señaló que el modelo "resolvió un montón de acertijos correctamente e hizo un poco de programación de ambiente" sin quejas sobre la cuantización MINT de 3 bits. El único problema ocurrió cuando la ventana de contexto se llenó cerca del uso de 59 GB de VRAM, causando un bloqueo del sistema.
Comparación con Otros Modelos
El usuario también probó "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8", que encontró más preciso que el modelo de 122B pero significativamente más lento:
- Velocidad de Generación de Tokens: 6.93 tokens/segundo
- El procesamiento de indicaciones se mantuvo rápido a pesar de la generación más lenta
Esto demuestra la compensación entre el tamaño del modelo, la cuantización y la velocidad de inferencia que los desarrolladores enfrentan al elegir configuraciones de LLM locales.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Errores de Conexión de Claude para Organizaciones que Bloquean GitHub por Dirección IP
Una actualización automática de estado informa fallos de conexión para organizaciones que restringen el acceso a GitHub por dirección IP, con seguimiento continuo del incidente a través de status.claude.com.

El Agente de IA Coasty Resuelve Desafíos CAPTCHA Hasta el Nivel 6 Sin Entrenamiento
El Agente de Uso de Computadora (CUA) de Coasty logró un 82% en el benchmark OSWorld, resolviendo CAPTCHAs hasta el Nivel 6, ventanas emergentes del navegador y banners de cookies sin entrenamiento específico para los desafíos de 'No soy un robot'.

Fallo del SDNY Niega el Privilegio Abogado-Cliente para las Comunicaciones con Chat de IA
El juez Rakoff falló en U.S. v. Heppner que las comunicaciones con herramientas de IA como ChatGPT no califican para el privilegio abogado-cliente, requiriendo la divulgación de todo el trabajo legal generado por IA. El tribunal determinó que la IA carece de la confidencialidad humana necesaria para la protección del privilegio.

Anthropic lanza 10 agentes de IA financiera para presentaciones, KYC y cierre de fin de mes
Anthropic lanzó 10 agentes de IA listos para usar para servicios financieros y seguros, que cubren la creación de pitchbooks, verificación KYC y cierre de fin de mes, entregados a través de Claude Cowork, Claude Code y Managed Agents.