GLM-5-Turbo 도구 호출 오류율 0.57%로 GLM-5 대비 80% 개선

r/LocalLLaMA에서 공유된 사용자 테스트에 따르면, z-ai/glm-5-turbo 모델이 도구 호출 애플리케이션에서 유망한 성능을 보여주고 있습니다.

벤치마크 결과

테스트 결과, 이 모델은 평균 0.57%의 매우 낮은 도구 호출 오류율을 달성하는 것으로 나타났습니다. 이는 약 3%의 오류율을 보이는 표준 GLM-5 모델에 비해 상당한 개선으로, GLM-5-turbo가 도구 호출 작업에서 약 6배 더 정확함을 의미합니다.

다른 제공업체의 모델과 비교했을 때:

Anthropic 모델은 0.38%에서 0.93% 범위이며 평균 0.67%
Amazon Bedrock 모델은 1.48%에서 1.76% 범위이며 평균 1.63%
Google Vertex 모델은 0.99%에서 2.62% 범위이며 평균 1.93%

실제 적용 사례

한 사용자가 판타지 소설 작성을 위한 새로운 CLI 도구로 GLM-5-turbo를 테스트했으며, 이전 모델들에 비해 상당한 개선을 보고했습니다. 표준 GLM-5를 사용할 때는 "비영어권 콘텐츠에 대해 다소 불안정했고, 사용자 요청에 비해 어떤 명령을 올바르게 사용해야 할지 무작위로 모르는 경우가 있었다"고 합니다.

GLM-5-turbo(Max 플랜)를 사용하여, 해당 사용자는 "불안정함 없이, em-dash 없이, 연결된 장과 거의 올바르게 수행된 도구 호출로" 97,000단어를 성공적으로 작성했습니다. 소스에 따르면 이 모델은 특히 OpenClaw를 잘 지원합니다.

사용 시 고려사항

소스에 따르면 GLM-5-turbo는 코딩 지원이 필요한 사이드 프로젝트에 적합할 수 있지만, 더 안정적인 요소가 필요한 프로덕션 프로젝트의 경우 "올바른 선택이 아닌 것 같다"고 경고합니다. 또한 해당 사용자는 OpenClaw 대신 홈랩 설정에서 NemoClaw와 GLM-5-turbo를 함께 사용하는 것을 고려하고 있다고 언급했습니다.

Openrouter의 초기 사용 데이터는 첫 100B 토큰에 대해 좋은 수치를 보여주지만, 소스에서는 구체적인 지표가 제공되지 않았습니다.

📖 Read the full source: r/LocalLLaMA