GLM-5-Turbo, 사용자 테스트에서 낮은 도구 호출 오류율 보여

✍️ OpenClawRadar📅 게시일: March 19, 2026🔗 Source
GLM-5-Turbo, 사용자 테스트에서 낮은 도구 호출 오류율 보여
Ad

r/LocalLLaMA에서 공유된 사용자 테스트에 따르면, z-ai/glm-5-turbo 모델이 도구 호출 애플리케이션에서 유망한 성능을 보여주고 있습니다.

벤치마크 결과

테스트 결과, 이 모델은 평균 0.57%의 매우 낮은 도구 호출 오류율을 달성하는 것으로 나타났습니다. 이는 약 3%의 오류율을 보이는 표준 GLM-5 모델에 비해 상당한 개선으로, GLM-5-turbo가 도구 호출 작업에서 약 6배 더 정확함을 의미합니다.

다른 제공업체의 모델과 비교했을 때:

  • Anthropic 모델은 0.38%에서 0.93% 범위이며 평균 0.67%
  • Amazon Bedrock 모델은 1.48%에서 1.76% 범위이며 평균 1.63%
  • Google Vertex 모델은 0.99%에서 2.62% 범위이며 평균 1.93%

실제 적용 사례

한 사용자가 판타지 소설 작성을 위한 새로운 CLI 도구로 GLM-5-turbo를 테스트했으며, 이전 모델들에 비해 상당한 개선을 보고했습니다. 표준 GLM-5를 사용할 때는 "비영어권 콘텐츠에 대해 다소 불안정했고, 사용자 요청에 비해 어떤 명령을 올바르게 사용해야 할지 무작위로 모르는 경우가 있었다"고 합니다.

GLM-5-turbo(Max 플랜)를 사용하여, 해당 사용자는 "불안정함 없이, em-dash 없이, 연결된 장과 거의 올바르게 수행된 도구 호출로" 97,000단어를 성공적으로 작성했습니다. 소스에 따르면 이 모델은 특히 OpenClaw를 잘 지원합니다.

사용 시 고려사항

소스에 따르면 GLM-5-turbo는 코딩 지원이 필요한 사이드 프로젝트에 적합할 수 있지만, 더 안정적인 요소가 필요한 프로덕션 프로젝트의 경우 "올바른 선택이 아닌 것 같다"고 경고합니다. 또한 해당 사용자는 OpenClaw 대신 홈랩 설정에서 NemoClaw와 GLM-5-turbo를 함께 사용하는 것을 고려하고 있다고 언급했습니다.

Openrouter의 초기 사용 데이터는 첫 100B 토큰에 대해 좋은 수치를 보여주지만, 소스에서는 구체적인 지표가 제공되지 않았습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

비용 효율적인 Claude 대체를 위한 오픈소스 AI 모델 스택
Tools

비용 효율적인 Claude 대체를 위한 오픈소스 AI 모델 스택

레딧 사용자가 Llama 3.3 70b와 DeepSeek R1 32b 같은 오픈소스 모델을 로컬에서 실행하는 실용적인 AI 모델 스택을 공유하며, 90%의 작업을 무료 모델로 라우팅하여 월간 AI 비용을 £60 이상에서 £3 미만으로 줄였다고 밝혔습니다.

OpenClawRadar
RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.
Tools

RAG-Engram 아키텍처로 미세 조정된 Qwen3.5-2B 모델은 8K 컨텍스트에서 근거 기반 답변 정확도를 50%에서 93%로 향상시킵니다.

한 개발자가 '중간에서 길을 잃는' 현상을 해결하기 위해 맞춤형 RAG-Engram 아키텍처로 Qwen3.5-2B를 미세 조정하여, 실제 질의에서 8K 토큰 기준 정답률을 50%에서 93%로 향상시켰습니다. 이 시스템은 정적 개체 임베딩과 동적 청크 탐색이라는 두 단계 접근법을 사용합니다.

OpenClawRadar
벤치마크 결과: 코드 생성 시 Claude Opus with Codex vs. Pure Opus 사용 시기
Tools

벤치마크 결과: 코드 생성 시 Claude Opus with Codex vs. Pure Opus 사용 시기

통제된 벤치마크에서 세 가지 실제 코딩 작업에 대해 'Opus로 계획하고 Codex로 실행' 접근법을 테스트했습니다. 결과는 약 600줄의 코드에서 비용 교차점이 발생하며, 프로젝트 규모에 따른 구체적인 권장사항을 보여줍니다.

OpenClawRadar
클로드 협업 모드 설명: 파일 수준 작업 실행 vs 채팅 및 코드 모드
Tools

클로드 협업 모드 설명: 파일 수준 작업 실행 vs 채팅 및 코드 모드

클로드의 협업 모드는 선택한 폴더 내에서 작동하여 지저분한 폴더 정리, 스크린샷에서 구조화된 데이터 추출, 흩어진 메모를 구조화된 문서로 결합하는 등의 파일 수준 작업을 수행합니다.

OpenClawRadar