GLM 5 on Mac M3: 에이전트 코딩 성능 관찰

✍️ OpenClawRadar📅 게시일: February 23, 2026🔗 Source
GLM 5 on Mac M3: 에이전트 코딩 성능 관찰
Ad

성능 벤치마크와 한계

한 개발자가 에이전트 코딩 작업을 위해 Mac M3(512GB RAM)에서 MLX 4비트 양자화를 사용해 GLM 5를 테스트했습니다. 이 모델은 컨텍스트가 약 5만 토큰 미만으로 유지될 경우 '상당히 사용 가능'하다고 설명되지만, 특히 프롬프트 처리 중에는 Claude와 같은 API 기반 솔루션보다 상당히 느립니다.

컨텍스트가 5만 토큰을 초과하면 성능이 크게 저하됩니다. 한 테스트에서 6만5천 토큰을 처리할 때, 처음 절반은 8분(초당 67토큰)에 완료되었지만, 나머지 절반은 추가로 18분이 걸려 전체 속도는 초당 41토큰이 되었습니다. 토큰 생성은 더 빠르며, 큰 컨텍스트 크기에서 초당 12-20토큰으로 추정됩니다.

워크플로 관찰

사용자는 Opencode(에이전트 코딩 시스템)가 계획이 수립되면 다중 파일 코드 생성을 효율적으로 처리하며, '몇 분 만에 여러 파일에 걸쳐 수천 토큰의 코드를 출력하고 그 사이에 추론을 수행한다'고 언급했습니다. 프롬프트 처리는 일반적으로 파일당 수백 줄의 코드를 읽는 데 '몇 분'이 걸리며, 계획 세션 전체에 약 10분이 소요됩니다.

Opencode의 압축은 '전체 컨텍스트를 기본적으로 재처리하는 경향이 있어 시간이 꽤 걸립니다.' 5만 토큰 컨텍스트 제한에서 압축은 약 5분이 소요됩니다.

기술 설정과 미래 전망

이 테스트는 최신 런타임 최적화를 제공하지 않을 수 있는 LM Studio를 사용해 수행되었습니다. 사용자는 'MLX 또는 GGUF도 GLM 5용 런타임이 업데이트되면 프롬프트 처리가 더 빨라질 수 있지만, 이보다 훨씬 빠르지는 않을 것'이라고 제안했습니다.

이 설정은 컨텍스트에 7만 토큰 이상이 필요한 작업에는 권장되지 않습니다. 컨텍스트 크기 제한과 프롬프트 처리 중 특정 임계값을 초과한 후 발생하는 '견디기 힘든 느림' 때문입니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

MCP 서버는 LLM 추천을 개선하기 위해 개발 도구의 알려진 버그를 추적합니다
Tools

MCP 서버는 LLM 추천을 개선하기 위해 개발 도구의 알려진 버그를 추적합니다

nanmesh-mcp는 GitHub Issues, Stack Overflow, Reddit을 크롤링하여 57개 개발 도구의 실제 문제를 추적하는 MCP 서버로, LLM이 라이브러리 추천 전에 최신 버그 데이터를 제공합니다.

OpenClawRadar
Claude Desktop에서 MCP 서버 구축 및 테스트: 아키텍처와 교훈
Tools

Claude Desktop에서 MCP 서버 구축 및 테스트: 아키텍처와 교훈

한 개발자가 Claude Desktop 내에서 MCP 서버를 구축하고 테스트한 경험을 공유하며, 아키텍처 설정과 도구 스키마, 디버깅, 한계점에 대한 실용적인 교훈을 상세히 설명합니다.

OpenClawRadar
OpenClaw의 사각지대 해결: 모든 Anthropic 블로그를 가져오기 위한 사이트맵 구축
Tools

OpenClaw의 사각지대 해결: 모든 Anthropic 블로그를 가져오기 위한 사이트맵 구축

OpenClaw의 브라우저 도구가 Anthropic 블로그를 모두 발견하지 못하는 이유는 블로그가 여러 URL에 호스팅되어 있기 때문입니다. 한 사용자가 생성된 사이트맵을 제공하여 이 문제를 해결했고, 해결책을 공유 가능한 스킬로 패키징했습니다.

OpenClawRadar
MCP 서버 디렉토리, 20개 카테고리에 걸쳐 1000개 이상의 서버 목록 제공
Tools

MCP 서버 디렉토리, 20개 카테고리에 걸쳐 1000개 이상의 서버 목록 제공

선별된 디렉토리는 데이터베이스, 개발자 도구, 브라우저 자동화, AI/ML, 클라우드/데브옵스 등 카테고리별로 1000개 이상의 MCP 서버에 대한 설치 명령어와 설정 스니펫을 제공합니다. 이 디렉토리는 무료로 둘러보고 제출할 수 있습니다.

OpenClawRadar