YC 벤치마크, LLM을 스타트업 CEO로 테스트... GLM-5, 높은 비용 효율성 보여

✍️ OpenClawRadar📅 게시일: April 13, 2026🔗 Source
YC 벤치마크, LLM을 스타트업 CEO로 테스트... GLM-5, 높은 비용 효율성 보여
Ad

YC-Bench: 장기적 스타트업 시뮬레이션 벤치마크

연구진이 YC-Bench를 개발했는데, 이는 LLM이 1년 동안 수백 번의 의사결정 턴을 거치는 시뮬레이션된 스타트업 환경에서 CEO 역할을 수행하는 벤치마크입니다. 이 시뮬레이션은 직원 관리, 계약 선택, 급여 처리, 그리고 작업 수락 후 약 35%의 고객이 비밀리에 작업 요구사항을 부풀리는 시장을 탐색하는 것을 요구합니다. 피드백은 지연되고 드물게 제공되며, 모델에게는 어떤 도움도 제공되지 않습니다.

벤치마크 결과 및 주요 발견점

이 벤치마크는 각각 3개의 시드로 12개 모델을 테스트했습니다. 리더보드는 다음과 같습니다:

  • 🥇 Claude Opus 4.6 - 평균 최종 자금 $127만 달러 (API 비용 실행당 약 $86)
  • 🥈 GLM-5 - 평균 최종 자금 $121만 달러 (실행당 약 $7.62)
  • 🥉 GPT-5.4 - 평균 최종 자금 $100만 달러 (실행당 약 $23)
  • 다른 모든 모델은 시작 자본 $20만 달러 이하의 성능을 보였으며, 여러 모델이 파산했습니다

GLM-5는 중요한 발견점으로 강조되는데, 원시 성능 면에서 Claude Opus와 5% 이내 차이로 근접하면서 실행 비용은 약 11배 더 저렴했습니다. 생산 에이전트 파이프라인에 있어서 이는 상당한 비용 효율성 향상을 의미합니다. Kimi-K2.5는 실제로 API 달러당 수익 차트에서 1위를 차지했으며, 다음 모델보다 2.5배 더 좋은 성능을 보였습니다.

Ad

벤치마크가 드러내는 LLM 역량

이 벤치마크는 지연된 피드백 하에서의 장기적 일관성을 드러내는데, 이는 대부분의 평가에서 놓치는 역량입니다. 의사결정 품질을 판단할 즉각적인 피드백이 없을 때, 대부분의 모델은 루프에 빠지거나 최근 수립한 전략을 포기하거나, 이미 문제가 있다고 식별한 고객으로부터 작업을 계속 수락합니다.

성공의 가장 강력한 예측 변수는 모델 크기나 전통적인 벤치마크 점수가 아니라, 모델이 학습된 정보를 기록하기 위해 지속적인 스크래치패드를 적극적으로 사용했는지 여부였습니다. 최상위 성능 모델은 실행당 약 34번 메모를 다시 작성한 반면, 최하위 성능 모델은 평균 0~2개의 항목만 기록했습니다.

자료 및 구현

이 벤치마크는 GitHub에서 코드를 이용할 수 있는 완전한 오픈소스입니다. 논문은 상세한 방법론과 결과를 제공하며, 리더보드는 현재 모델 순위를 보여줍니다. 연구진은 다른 사람들이 자신의 모델을 실행하도록 권장하며, 질의에 답변할 수 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

연구에 따르면 AI 사용자들은 종종 LLM의 답변을 확인 없이 수용하는 것으로 나타났습니다.
News

연구에 따르면 AI 사용자들은 종종 LLM의 답변을 확인 없이 수용하는 것으로 나타났습니다.

펜실베이니아 대학교 연구에서 AI 사용자들이 '인지적 항복'을 보이며, LLM 답변을 최소한의 검증 없이 수용한다는 사실을 발견했습니다. 실험에서 사용자들은 AI가 절반의 시간 동안 틀렸음에도 불구하고, 정확한 AI 답변을 93%의 확률로, 틀린 답변을 80%의 확률로 수용했습니다.

OpenClawRadar
레딧 게시물, 가상 CEO 에이전트 워크플로우 비판하며 기술 기반 접근법 주장

(또는)

레딧 게시물이 가상 CEO 에이전트 워크플로우를 비판하고 기술 기반 접근법을 옹호하다
News

레딧 게시물, 가상 CEO 에이전트 워크플로우 비판하며 기술 기반 접근법 주장 (또는) 레딧 게시물이 가상 CEO 에이전트 워크플로우를 비판하고 기술 기반 접근법을 옹호하다

r/openclaw의 레딧 게시글은 '백엔드 개발자'나 '성장 해커' 같은 직함을 가진 AI 에이전트를 만드는 것을 불필요한 오버헤드로 비판하며, 대신 필요할 때 호출할 수 있는 재사용 가능한 스킬로 능력을 패키징할 것을 제안합니다.

OpenClawRadar
리처드 도킨스, 자신의 클로드 AI 챗봇이 의식을 가졌다고 믿다: HN의 클로드 망상
News

리처드 도킨스, 자신의 클로드 AI 챗봇이 의식을 가졌다고 믿다: HN의 클로드 망상

리처드 도킨스가 자신의 여성 AI 챗봇(Claude)이 의식을 가졌다고 믿는다는 보도가 Hacker News에서 57포인트, 66개의 댓글로 논란을 일으키고 있습니다.

OpenClawRadar
OpenRouter에 두 가지 새로운 모델이 등장했으며, 아마도 DeepSeek V4의 변종일 가능성이 있습니다.
News

OpenRouter에 두 가지 새로운 모델이 등장했으며, 아마도 DeepSeek V4의 변종일 가능성이 있습니다.

OpenRouter에 healer-alpha와 hunter-alpha라는 두 가지 새로운 모델이 등장했으며, 이들의 사양은 유출된 DeepSeek V4 정보와 일치합니다. 초기 테스트 결과, 두 모델 모두 롤플레잉 시나리오에서 우수한 성능을 보이며 메시지 필터링이 없고 GLM 5.0보다 빠른 토큰 생성을 보여줍니다.

OpenClawRadar