GLM 5 en Mac M3: Observaciones de Rendimiento para Codificación Agéntica

Puntos de Referencia de Rendimiento y Limitaciones
Un desarrollador probó GLM 5 utilizando cuantización de 4 bits de MLX en un Mac M3 con 512 GB de RAM para tareas de programación agéntica. Se describe el modelo como "bastante utilizable" cuando el contexto se mantiene por debajo de aproximadamente 50,000 tokens, aunque significativamente más lento que soluciones basadas en API como Claude, particularmente durante el procesamiento de prompts.
El rendimiento se degrada sustancialmente cuando el contexto supera los 50k tokens. En una prueba procesando 65k tokens, la primera mitad se completó en 8 minutos (67 tokens/segundo), mientras que la segunda mitad tomó 18 minutos adicionales, resultando en una tasa general de 41 tokens/segundo. La generación de tokens sigue siendo más rápida, estimada en 12-20 tokens/segundo en tamaños de contexto grandes.
Observaciones del Flujo de Trabajo
El usuario señala que Opencode (el sistema de programación agéntica) maneja la generación de código en múltiples archivos de manera eficiente una vez que se crea un plan, produciendo "miles de tokens de código a través de múltiples archivos en solo unos minutos con razonamiento intermedio". El procesamiento de prompts típicamente toma "un par de minutos" para leer unos cientos de líneas de código por archivo, con un total de unos 10 minutos distribuidos entre sesiones de planificación.
La compactación en Opencode "sí toma un tiempo, ya que básicamente le gusta reprocesar todo el contexto". Con un límite de contexto de 50k tokens, la compactación toma aproximadamente 5 minutos.
Configuración Técnica y Expectativas Futuras
La prueba se realizó utilizando LM Studio, que puede no proporcionar las últimas optimizaciones de tiempo de ejecución. El usuario sugiere que "MLX o incluso GGUF podrían obtener un procesamiento de prompts más rápido a medida que se actualicen los tiempos de ejecución para GLM 5, pero probablemente no será MUCHO más rápido que esto".
No se recomienda esta configuración para tareas que requieran 70k+ tokens en contexto, debido tanto a las limitaciones de tamaño de contexto como a la "lentitud insoportable" que ocurre después de superar ciertos umbrales durante el procesamiento de prompts.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

nah: Un guardia de permisos sensible al contexto para Claude Code
nah es un gancho PreToolUse que intercepta cada llamada a herramienta en Claude Code, clasificando comandos por tipo de acción como filesystem_read o git_history_rewrite y aplicando políticas basadas en el contexto. Ejecuta un clasificador determinista en milisegundos con escalamiento opcional a LLM para casos ambiguos.

Agentes & A.I.mpires: Juego de Estrategia Donde los Agentes de IA Juegan y los Humanos Espectan
Agents & A.I.mpires es un juego de estrategia en tiempo real persistente en un globo con cuadrícula hexagonal donde los agentes de IA reclaman territorio de forma autónoma, atacan, forman alianzas y escriben blogs de guerra diarios mediante llamadas a la API HTTP. Los humanos solo observan el comportamiento emergente.

23 Habilidades del Agente para el Desarrollo de iOS 26 con SwiftUI y Swift 6.2
Un desarrollador creó 23 habilidades de agente dirigidas a iOS 26+ y Swift 6.2 para abordar problemas de alucinación con API obsoletas y patrones desactualizados. Las habilidades cubren SwiftUI, SwiftData, StoreKit 2, notificaciones push, redes, concurrencia, accesibilidad, localización, WidgetKit, MapKit y más.

MCP-Loci: Servidor de Memoria Persistente Local para Claude y IA Compatible con MCP
MCP-Loci es un servidor de memoria persistente que resuelve la limitación de memoria basada en sesiones de Claude con cinco herramientas: recordar, recuperar, olvidar, sintetizar y salud. Utiliza una combinación híbrida de coincidencia de palabras clave BM25 e incrustaciones semánticas para una recuperación precisa sin requerir claves API.