GLM 5 en Mac M3: Rendimiento para Codificación Agéntica

Puntos de Referencia de Rendimiento y Limitaciones

Un desarrollador probó GLM 5 utilizando cuantización de 4 bits de MLX en un Mac M3 con 512 GB de RAM para tareas de programación agéntica. Se describe el modelo como "bastante utilizable" cuando el contexto se mantiene por debajo de aproximadamente 50,000 tokens, aunque significativamente más lento que soluciones basadas en API como Claude, particularmente durante el procesamiento de prompts.

El rendimiento se degrada sustancialmente cuando el contexto supera los 50k tokens. En una prueba procesando 65k tokens, la primera mitad se completó en 8 minutos (67 tokens/segundo), mientras que la segunda mitad tomó 18 minutos adicionales, resultando en una tasa general de 41 tokens/segundo. La generación de tokens sigue siendo más rápida, estimada en 12-20 tokens/segundo en tamaños de contexto grandes.

Observaciones del Flujo de Trabajo

El usuario señala que Opencode (el sistema de programación agéntica) maneja la generación de código en múltiples archivos de manera eficiente una vez que se crea un plan, produciendo "miles de tokens de código a través de múltiples archivos en solo unos minutos con razonamiento intermedio". El procesamiento de prompts típicamente toma "un par de minutos" para leer unos cientos de líneas de código por archivo, con un total de unos 10 minutos distribuidos entre sesiones de planificación.

La compactación en Opencode "sí toma un tiempo, ya que básicamente le gusta reprocesar todo el contexto". Con un límite de contexto de 50k tokens, la compactación toma aproximadamente 5 minutos.

Configuración Técnica y Expectativas Futuras

La prueba se realizó utilizando LM Studio, que puede no proporcionar las últimas optimizaciones de tiempo de ejecución. El usuario sugiere que "MLX o incluso GGUF podrían obtener un procesamiento de prompts más rápido a medida que se actualicen los tiempos de ejecución para GLM 5, pero probablemente no será MUCHO más rápido que esto".

No se recomienda esta configuración para tareas que requieran 70k+ tokens en contexto, debido tanto a las limitaciones de tamaño de contexto como a la "lentitud insoportable" que ocurre después de superar ciertos umbrales durante el procesamiento de prompts.

📖 Read the full source: r/LocalLLaMA

GLM 5 en Mac M3: Observaciones de Rendimiento para Codificación Agéntica

Puntos de Referencia de Rendimiento y Limitaciones

Observaciones del Flujo de Trabajo

Configuración Técnica y Expectativas Futuras

👀 Ver también

x402 API Gateway para Bots OpenClaw: Un Único Punto de Acceso Reemplaza 18 Claves de API

AIMEAT: Un protocolo autoalojado para agentes de IA, LLM locales y capacidades compartidas

X-MCP 2.0: Servidor MCP para Acceso a la API de X/Twitter desde Claude

Sistema de Documentación Autónomo Utilizando Bloques Delimitados para Cero Desviación