GLM 5.1 vs Kimi K2.6: Configuración Local de LLM en Mac Studio M3 Ultra

En r/LocalLLaMA, el usuario ezyz publicó su configuración local de LLM en Mac Studio a mayo de 2026, ejecutándose en un M3 Ultra con 512 GB de memoria unificada. La publicación es una evaluación del día a día, no un benchmark riguroso, pero está llena de observaciones prácticas para cualquiera que ejecute modelos grandes localmente para codificar con Claude Code.

Modelos activos actuales y rendimiento

GLM 5.1 es el gran ganador. Cuantizado, ocupa ~380 GB con contexto máximo, dejando espacio para otras tareas. La velocidad de decodificación es de ~17 t/s, y la precarga de ~190 t/s. El autor confía en él hasta un 6/10 en complejidad de tareas (siendo 10 'código heredado complejo + especificación vaga') para codificar con Claude Code. Maneja problemas autónomos y semi-delimitados de manera consistente, con asistencia ocasional de Claude API para planificación o limpieza.

Kimi K2.6 está en el mismo nivel, ni claramente mejor ni peor, pero es más grande. Incluso cuantizado agresivamente, usa ~460 GB, dejando poco espacio para otros experimentos. Es más rápido: precarga ~220 t/s, decodificación ~21 t/s. La fricción es que hay que descargarlo para experimentos que requieren mucha memoria.

Minimax 2.7 es impresionante por su tamaño y velocidad, pero el autor le da solo un 3-4/10 para trabajo de desarrollo. Es un tamaño incómodo: GLM y Kimi ganan generando código utilizable, mientras que los modelos más pequeños ganan en tareas de asistente como 'resumir esta búsqueda web'. Sí que tiende a evadir el razonamiento para solicitudes simples.

Gemma 4 31B decepcionó: el soporte MLX sigue siendo desordenado un mes después del lanzamiento. El denso de 31B no es mucho más rápido que los grandes MoE, la plantilla de chat oficial tiene múltiples errores no resueltos, y los parches siguen llegando. El autor planea retomarlo una vez que el soporte MTP/draft se estabilice.

Qwen 3.6 35B fue reemplazado por Qwen 3.5 9B para tareas multimodales como traducir capturas de pantalla: es lo suficientemente bueno y rápido, y maneja las tareas en segundo plano de Haiku de Claude Code sin diferencias notables, mientras ahorra ~14 GB de memoria.

Soporte pendiente y próximos lanzamientos

Ni Deepseek 4 Flash ni Mimo 2.5 han llegado oficialmente a llama.cpp o mlx-lm aún. El autor probará las PRs cuando tenga tiempo. Supone que las versiones pro de ambos serán demasiado grandes y lentas para el M3 Ultra: los 40B de parámetros activos de GLM son aproximadamente su límite de paciencia.

Proyectos seguidos con interés:

Exo y tinygrad para clustering Mac + NVIDIA y precarga desagregada
Soporte para Dflash / DDtree / MTP estables
Nuevos formatos de cuantización (paroquant, JANGTQ) — ver llama.cpp PR #21038
Generación musical local — Ace Step 1.5 es 'casi bueno' pero las voces aún no están listas.

📖 Lee la fuente completa: r/LocalLLaMA

Configuración local de LLM en Mac Studio: GLM 5.1, Kimi K2.6 y lo que funciona para codificar con Claude Code

Modelos activos actuales y rendimiento

Soporte pendiente y próximos lanzamientos

👀 Ver también

Desarrollador Implementa Bucle de Retroalimentación Listo para IA para Lanzamiento de Funciones

Desarrollador Construye y Envía Juego Móvil Usando Código Claude

Configuración Local de IA Multi-Agente en WSL Usando OpenClaw y Ollama

Diseñador construye plataforma full-stack con Claude CLI: lecciones desde cero conocimientos formales de programación.