GLM-5.1 출시, 코딩 성능 Claude Opus 4.5와 대등

Zhipu AI가 최신 플래그십 모델인 GLM-5.1을 출시하여 모든 코딩 플랜 사용자가 이용할 수 있게 되었습니다. 이 모델은 Claude Opus 4.5 성능 수준에 근접하는 코딩 능력을 보여줍니다.
주요 벤치마크 및 사양
2026년 3월 벤치마크에 따르면:
- SWE-bench-Verified: 77.8점 — 오픈소스 모델 중 최고 점수
- Terminal Bench 2.0: 56.2점 — 오픈소스 최첨단 성능
- 코딩 작업에서 GPT-4o를 능가하고 Claude Opus 4.5에 근접
기술 사양은 다음과 같습니다:
- 200K 컨텍스트 윈도우
- 128K 최대 출력
- 744B 파라미터 (40B 활성화)
- 28.5T 사전 학습 데이터
- 네이티브 MCP 지원
실제 응용 분야
원본 자료에 따르면 이러한 능력은 다음과 같은 작업으로 이어집니다:
- 최소한의 지원으로 자율적인 다단계 코딩 작업 수행
- 긴 컨텍스트 코드 베이스 리팩토링 및 디버깅
- 에이전트 워크플로: 계획 → 실행 → 디버깅 → 전달
GLM-5.1은 Zhipu AI의 코딩 플랜 등급(Lite, Pro, Max)을 통해 지금 이용할 수 있습니다. Reddit 토론에서는 실제 프로덕션 코딩 작업에 대해 Claude 4.6과의 실전 테스트 비교를 요청하고 있습니다.
📖 Read the full source: r/openclaw
👀 See Also

클로드 코드 벤치마크가 AI 평가자의 맹점을 드러내다: 파이프라인 결함이 모델 능력으로 오인되다
클로드 코드(Opus 4.6)에 의해 자동으로 실행된 벤치마크에서 샌드박스 구성 버그로 인해 초기에 MiniMax가 '작업을 구현할 수 없다'고 판정했으나, 데몬 로그를 조사한 후 판정을 수정했습니다. 이 사건은 AI 평가자가 인프라 문제를 모델의 약점으로 확신하며 잘못 귀속시킬 수 있음을 보여줍니다.

아틀라시안, AI 훈련을 위한 기본 데이터 수집 기능 활성화
Atlassian이 AI 모델 훈련을 위해 제품 전반에 기본 데이터 수집을 활성화했다고 Hacker News에 312점과 75개의 댓글로 공유된 소스에서 밝혔습니다.

NIST, AI 에이전트 보안 표준에 대한 공개 의견 수렴
국립표준기술연구소(NIST)가 인공지능 에이전트의 보안 고려사항에 대한 정보 요청서를 발표했으며, 의견 제출 마감일은 2026년 3월 9일입니다. 이 RFI는 연방관보를 통해 공개 의견을 받고 있습니다.

Claude-Code v2.1.25 출시: 유효성 검사 오류 수정
Claude-Code v2.1.25는 Bedrock 및 Vertex에서 게이트웨이를 사용하는 사용자에게 영향을 미치는 베타 헤더 검증 문제를 해결하며, 특정 환경 변수 해결책을 제공합니다.