GLM-5-Turbo, 사용자 테스트에서 낮은 도구 호출 오류율 보여

r/LocalLLaMA에서 공유된 사용자 테스트에 따르면, z-ai/glm-5-turbo 모델이 도구 호출 애플리케이션에서 유망한 성능을 보여주고 있습니다.
벤치마크 결과
테스트 결과, 이 모델은 평균 0.57%의 매우 낮은 도구 호출 오류율을 달성하는 것으로 나타났습니다. 이는 약 3%의 오류율을 보이는 표준 GLM-5 모델에 비해 상당한 개선으로, GLM-5-turbo가 도구 호출 작업에서 약 6배 더 정확함을 의미합니다.
다른 제공업체의 모델과 비교했을 때:
- Anthropic 모델은 0.38%에서 0.93% 범위이며 평균 0.67%
- Amazon Bedrock 모델은 1.48%에서 1.76% 범위이며 평균 1.63%
- Google Vertex 모델은 0.99%에서 2.62% 범위이며 평균 1.93%
실제 적용 사례
한 사용자가 판타지 소설 작성을 위한 새로운 CLI 도구로 GLM-5-turbo를 테스트했으며, 이전 모델들에 비해 상당한 개선을 보고했습니다. 표준 GLM-5를 사용할 때는 "비영어권 콘텐츠에 대해 다소 불안정했고, 사용자 요청에 비해 어떤 명령을 올바르게 사용해야 할지 무작위로 모르는 경우가 있었다"고 합니다.
GLM-5-turbo(Max 플랜)를 사용하여, 해당 사용자는 "불안정함 없이, em-dash 없이, 연결된 장과 거의 올바르게 수행된 도구 호출로" 97,000단어를 성공적으로 작성했습니다. 소스에 따르면 이 모델은 특히 OpenClaw를 잘 지원합니다.
사용 시 고려사항
소스에 따르면 GLM-5-turbo는 코딩 지원이 필요한 사이드 프로젝트에 적합할 수 있지만, 더 안정적인 요소가 필요한 프로덕션 프로젝트의 경우 "올바른 선택이 아닌 것 같다"고 경고합니다. 또한 해당 사용자는 OpenClaw 대신 홈랩 설정에서 NemoClaw와 GLM-5-turbo를 함께 사용하는 것을 고려하고 있다고 언급했습니다.
Openrouter의 초기 사용 데이터는 첫 100B 토큰에 대해 좋은 수치를 보여주지만, 소스에서는 구체적인 지표가 제공되지 않았습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

비용 효율적인 Claude 대체를 위한 오픈소스 AI 모델 스택
레딧 사용자가 Llama 3.3 70b와 DeepSeek R1 32b 같은 오픈소스 모델을 로컬에서 실행하는 실용적인 AI 모델 스택을 공유하며, 90%의 작업을 무료 모델로 라우팅하여 월간 AI 비용을 £60 이상에서 £3 미만으로 줄였다고 밝혔습니다.

RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.
한 개발자가 '중간에서 길을 잃는' 현상을 해결하기 위해 맞춤형 RAG-Engram 아키텍처로 Qwen3.5-2B를 미세 조정하여, 실제 질의에서 8K 토큰 기준 정답률을 50%에서 93%로 향상시켰습니다. 이 시스템은 정적 개체 임베딩과 동적 청크 탐색이라는 두 단계 접근법을 사용합니다.

벤치마크 결과: 코드 생성 시 Claude Opus with Codex vs. Pure Opus 사용 시기
통제된 벤치마크에서 세 가지 실제 코딩 작업에 대해 'Opus로 계획하고 Codex로 실행' 접근법을 테스트했습니다. 결과는 약 600줄의 코드에서 비용 교차점이 발생하며, 프로젝트 규모에 따른 구체적인 권장사항을 보여줍니다.

클로드 협업 모드 설명: 파일 수준 작업 실행 vs 채팅 및 코드 모드
클로드의 협업 모드는 선택한 폴더 내에서 작동하여 지저분한 폴더 정리, 스크린샷에서 구조화된 데이터 추출, 흩어진 메모를 구조화된 문서로 결합하는 등의 파일 수준 작업을 수행합니다.