Configuración local de LLM en Mac Studio: GLM 5.1, Kimi K2.6 y lo que funciona para codificar con Claude Code

En r/LocalLLaMA, el usuario ezyz publicó su configuración local de LLM en Mac Studio a mayo de 2026, ejecutándose en un M3 Ultra con 512 GB de memoria unificada. La publicación es una evaluación del día a día, no un benchmark riguroso, pero está llena de observaciones prácticas para cualquiera que ejecute modelos grandes localmente para codificar con Claude Code.
Modelos activos actuales y rendimiento
GLM 5.1 es el gran ganador. Cuantizado, ocupa ~380 GB con contexto máximo, dejando espacio para otras tareas. La velocidad de decodificación es de ~17 t/s, y la precarga de ~190 t/s. El autor confía en él hasta un 6/10 en complejidad de tareas (siendo 10 'código heredado complejo + especificación vaga') para codificar con Claude Code. Maneja problemas autónomos y semi-delimitados de manera consistente, con asistencia ocasional de Claude API para planificación o limpieza.
Kimi K2.6 está en el mismo nivel, ni claramente mejor ni peor, pero es más grande. Incluso cuantizado agresivamente, usa ~460 GB, dejando poco espacio para otros experimentos. Es más rápido: precarga ~220 t/s, decodificación ~21 t/s. La fricción es que hay que descargarlo para experimentos que requieren mucha memoria.
Minimax 2.7 es impresionante por su tamaño y velocidad, pero el autor le da solo un 3-4/10 para trabajo de desarrollo. Es un tamaño incómodo: GLM y Kimi ganan generando código utilizable, mientras que los modelos más pequeños ganan en tareas de asistente como 'resumir esta búsqueda web'. Sí que tiende a evadir el razonamiento para solicitudes simples.
Gemma 4 31B decepcionó: el soporte MLX sigue siendo desordenado un mes después del lanzamiento. El denso de 31B no es mucho más rápido que los grandes MoE, la plantilla de chat oficial tiene múltiples errores no resueltos, y los parches siguen llegando. El autor planea retomarlo una vez que el soporte MTP/draft se estabilice.
Qwen 3.6 35B fue reemplazado por Qwen 3.5 9B para tareas multimodales como traducir capturas de pantalla: es lo suficientemente bueno y rápido, y maneja las tareas en segundo plano de Haiku de Claude Code sin diferencias notables, mientras ahorra ~14 GB de memoria.
Soporte pendiente y próximos lanzamientos
Ni Deepseek 4 Flash ni Mimo 2.5 han llegado oficialmente a llama.cpp o mlx-lm aún. El autor probará las PRs cuando tenga tiempo. Supone que las versiones pro de ambos serán demasiado grandes y lentas para el M3 Ultra: los 40B de parámetros activos de GLM son aproximadamente su límite de paciencia.
Proyectos seguidos con interés:
- Exo y tinygrad para clustering Mac + NVIDIA y precarga desagregada
- Soporte para Dflash / DDtree / MTP estables
- Nuevos formatos de cuantización (paroquant, JANGTQ) — ver llama.cpp PR #21038
- Generación musical local — Ace Step 1.5 es 'casi bueno' pero las voces aún no están listas.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Construyendo un JRPG de Pixel Art con Claude Code: Flujo de Trabajo y Stack de un Desarrollador
Un desarrollador utilizó Claude Code (Opus 4.6) para crear Bakemachi, un JRPG de arte pixel diseñado para aprender japonés, que incluye una demo jugable. La pila tecnológica incluye Vite, React, Phaser 3, TypeScript y Zustand, con Claude encargándose de la mayor parte de la implementación del código.

Reseña de Usuario del Complemento Claude Excel: Experiencia Práctica con Tareas de Hojas de Cálculo
Un propietario de una empresa de construcción reporta resultados positivos usando el complemento de Excel de Claude para actualizar hojas de cálculo de cotizaciones y costos de trabajo, destacando la detección de errores y sugerencias de mejora de la interfaz de usuario.

Desarrollador Construye Motor de Simulación de Béisbol con IA Usando Claude Code en Dos Semanas
Un desarrollador utilizó Claude Code para construir un sistema completo de simulación de béisbol con 30 equipos de la MLB gestionados por IA, resúmenes de partidos, conferencias de prensa y podcasts de audio. El proyecto costó $50 en créditos de API e incluye un motor de simulación, una canalización de contenido, un bot de Discord y un sitio web.

Cómo reduje los costos de OpenClaw en un 60% mediante el enrutamiento de modelos
Un usuario de OpenClaw redujo los costos de API de $420 a $168 en 20 días al analizar patrones de uso y dirigir tareas a modelos apropiados en lugar de usar Claude Opus para todo. El desglose mostró que el 70% de las tareas eran simples y podían usar modelos más económicos.