GLM-5 vs Claude Opus: YC 벤치마크서 5% 성능 차이로 비용 90% 절감

YC-Bench: 장기적 스타트업 시뮬레이션 벤치마크

연구진이 YC-Bench를 개발했는데, 이는 LLM이 1년 동안 수백 번의 의사결정 턴을 거치는 시뮬레이션된 스타트업 환경에서 CEO 역할을 수행하는 벤치마크입니다. 이 시뮬레이션은 직원 관리, 계약 선택, 급여 처리, 그리고 작업 수락 후 약 35%의 고객이 비밀리에 작업 요구사항을 부풀리는 시장을 탐색하는 것을 요구합니다. 피드백은 지연되고 드물게 제공되며, 모델에게는 어떤 도움도 제공되지 않습니다.

벤치마크 결과 및 주요 발견점

이 벤치마크는 각각 3개의 시드로 12개 모델을 테스트했습니다. 리더보드는 다음과 같습니다:

🥇 Claude Opus 4.6 - 평균 최종 자금 $127만 달러 (API 비용 실행당 약 $86)
🥈 GLM-5 - 평균 최종 자금 $121만 달러 (실행당 약 $7.62)
🥉 GPT-5.4 - 평균 최종 자금 $100만 달러 (실행당 약 $23)
다른 모든 모델은 시작 자본 $20만 달러 이하의 성능을 보였으며, 여러 모델이 파산했습니다

GLM-5는 중요한 발견점으로 강조되는데, 원시 성능 면에서 Claude Opus와 5% 이내 차이로 근접하면서 실행 비용은 약 11배 더 저렴했습니다. 생산 에이전트 파이프라인에 있어서 이는 상당한 비용 효율성 향상을 의미합니다. Kimi-K2.5는 실제로 API 달러당 수익 차트에서 1위를 차지했으며, 다음 모델보다 2.5배 더 좋은 성능을 보였습니다.

벤치마크가 드러내는 LLM 역량

이 벤치마크는 지연된 피드백 하에서의 장기적 일관성을 드러내는데, 이는 대부분의 평가에서 놓치는 역량입니다. 의사결정 품질을 판단할 즉각적인 피드백이 없을 때, 대부분의 모델은 루프에 빠지거나 최근 수립한 전략을 포기하거나, 이미 문제가 있다고 식별한 고객으로부터 작업을 계속 수락합니다.

성공의 가장 강력한 예측 변수는 모델 크기나 전통적인 벤치마크 점수가 아니라, 모델이 학습된 정보를 기록하기 위해 지속적인 스크래치패드를 적극적으로 사용했는지 여부였습니다. 최상위 성능 모델은 실행당 약 34번 메모를 다시 작성한 반면, 최하위 성능 모델은 평균 0~2개의 항목만 기록했습니다.