GLM 5 Mac M3 MLX 4비트 성능: 에이전트 코딩 사용 가능 한계는?

성능 벤치마크와 한계

한 개발자가 에이전트 코딩 작업을 위해 Mac M3(512GB RAM)에서 MLX 4비트 양자화를 사용해 GLM 5를 테스트했습니다. 이 모델은 컨텍스트가 약 5만 토큰 미만으로 유지될 경우 '상당히 사용 가능'하다고 설명되지만, 특히 프롬프트 처리 중에는 Claude와 같은 API 기반 솔루션보다 상당히 느립니다.

컨텍스트가 5만 토큰을 초과하면 성능이 크게 저하됩니다. 한 테스트에서 6만5천 토큰을 처리할 때, 처음 절반은 8분(초당 67토큰)에 완료되었지만, 나머지 절반은 추가로 18분이 걸려 전체 속도는 초당 41토큰이 되었습니다. 토큰 생성은 더 빠르며, 큰 컨텍스트 크기에서 초당 12-20토큰으로 추정됩니다.

워크플로 관찰

사용자는 Opencode(에이전트 코딩 시스템)가 계획이 수립되면 다중 파일 코드 생성을 효율적으로 처리하며, '몇 분 만에 여러 파일에 걸쳐 수천 토큰의 코드를 출력하고 그 사이에 추론을 수행한다'고 언급했습니다. 프롬프트 처리는 일반적으로 파일당 수백 줄의 코드를 읽는 데 '몇 분'이 걸리며, 계획 세션 전체에 약 10분이 소요됩니다.

Opencode의 압축은 '전체 컨텍스트를 기본적으로 재처리하는 경향이 있어 시간이 꽤 걸립니다.' 5만 토큰 컨텍스트 제한에서 압축은 약 5분이 소요됩니다.