GLM 5 on Mac M3: 에이전트 코딩 성능 관찰

성능 벤치마크와 한계
한 개발자가 에이전트 코딩 작업을 위해 Mac M3(512GB RAM)에서 MLX 4비트 양자화를 사용해 GLM 5를 테스트했습니다. 이 모델은 컨텍스트가 약 5만 토큰 미만으로 유지될 경우 '상당히 사용 가능'하다고 설명되지만, 특히 프롬프트 처리 중에는 Claude와 같은 API 기반 솔루션보다 상당히 느립니다.
컨텍스트가 5만 토큰을 초과하면 성능이 크게 저하됩니다. 한 테스트에서 6만5천 토큰을 처리할 때, 처음 절반은 8분(초당 67토큰)에 완료되었지만, 나머지 절반은 추가로 18분이 걸려 전체 속도는 초당 41토큰이 되었습니다. 토큰 생성은 더 빠르며, 큰 컨텍스트 크기에서 초당 12-20토큰으로 추정됩니다.
워크플로 관찰
사용자는 Opencode(에이전트 코딩 시스템)가 계획이 수립되면 다중 파일 코드 생성을 효율적으로 처리하며, '몇 분 만에 여러 파일에 걸쳐 수천 토큰의 코드를 출력하고 그 사이에 추론을 수행한다'고 언급했습니다. 프롬프트 처리는 일반적으로 파일당 수백 줄의 코드를 읽는 데 '몇 분'이 걸리며, 계획 세션 전체에 약 10분이 소요됩니다.
Opencode의 압축은 '전체 컨텍스트를 기본적으로 재처리하는 경향이 있어 시간이 꽤 걸립니다.' 5만 토큰 컨텍스트 제한에서 압축은 약 5분이 소요됩니다.
기술 설정과 미래 전망
이 테스트는 최신 런타임 최적화를 제공하지 않을 수 있는 LM Studio를 사용해 수행되었습니다. 사용자는 'MLX 또는 GGUF도 GLM 5용 런타임이 업데이트되면 프롬프트 처리가 더 빨라질 수 있지만, 이보다 훨씬 빠르지는 않을 것'이라고 제안했습니다.
이 설정은 컨텍스트에 7만 토큰 이상이 필요한 작업에는 권장되지 않습니다. 컨텍스트 크기 제한과 프롬프트 처리 중 특정 임계값을 초과한 후 발생하는 '견디기 힘든 느림' 때문입니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

MCP 서버는 LLM 추천을 개선하기 위해 개발 도구의 알려진 버그를 추적합니다
nanmesh-mcp는 GitHub Issues, Stack Overflow, Reddit을 크롤링하여 57개 개발 도구의 실제 문제를 추적하는 MCP 서버로, LLM이 라이브러리 추천 전에 최신 버그 데이터를 제공합니다.

Claude Desktop에서 MCP 서버 구축 및 테스트: 아키텍처와 교훈
한 개발자가 Claude Desktop 내에서 MCP 서버를 구축하고 테스트한 경험을 공유하며, 아키텍처 설정과 도구 스키마, 디버깅, 한계점에 대한 실용적인 교훈을 상세히 설명합니다.

OpenClaw의 사각지대 해결: 모든 Anthropic 블로그를 가져오기 위한 사이트맵 구축
OpenClaw의 브라우저 도구가 Anthropic 블로그를 모두 발견하지 못하는 이유는 블로그가 여러 URL에 호스팅되어 있기 때문입니다. 한 사용자가 생성된 사이트맵을 제공하여 이 문제를 해결했고, 해결책을 공유 가능한 스킬로 패키징했습니다.

MCP 서버 디렉토리, 20개 카테고리에 걸쳐 1000개 이상의 서버 목록 제공
선별된 디렉토리는 데이터베이스, 개발자 도구, 브라우저 자동화, AI/ML, 클라우드/데브옵스 등 카테고리별로 1000개 이상의 MCP 서버에 대한 설치 명령어와 설정 스니펫을 제공합니다. 이 디렉토리는 무료로 둘러보고 제출할 수 있습니다.