YC-BenchでLLMをCEO評価：GLM-5がコスト対効果でClaude Opusに迫る

YC-Bench：長期視野のスタートアップシミュレーションベンチマーク

研究者たちはYC-Benchを開発しました。これは、LLMが完全に1年間にわたるシミュレートされたスタートアップ環境でCEOの役割を演じ、数百回の意思決定ターンを含むベンチマークです。このシミュレーションでは、従業員の管理、契約の選択、給与の処理、および約35%のクライアントがタスク受諾後に密かに作業要件を膨らませる市場のナビゲーションが要求されます。フィードバックは遅延し疎らで、モデルに対する手取り足取りの支援は提供されません。

ベンチマーク結果と主な発見

このベンチマークでは12のモデルがそれぞれ3シードでテストされました。リーダーボードは以下の通りです：

🥇 Claude Opus 4.6 - 平均最終資金127万ドル（APIコストは1回あたり約86ドル）
🥈 GLM-5 - 平均最終資金121万ドル（1回あたり約7.62ドル）
🥉 GPT-5.4 - 平均最終資金100万ドル（1回あたり約23ドル）
他のすべてのモデルは20万ドルの開始資金を下回る性能で、いくつかは破産しました

GLM-5は重要な発見として強調されており、生の性能ではClaude Opusの5%以内に収まりながら、実行コストは約11分の1です。生産的なエージェントパイプラインにとって、これは大幅なコスト効率の改善を意味します。Kimi-K2.5は実際、収益対APIドル比のチャートでトップに立ち、次のモデルよりも2.5倍優れています。

ベンチマークが明らかにするLLMの能力

このベンチマークは、遅延したフィードバック下での長期視野の一貫性を明らかにします。これはほとんどの評価が見過ごしている能力です。意思決定の質を判断するための即時のフィードバックが利用できない場合、ほとんどのモデルはループに陥るか、最近確立した戦略を放棄するか、すでに問題があると特定したクライアントからのタスクの受諾を続けます。

成功の最も強力な予測因子は、モデルのサイズや従来のベンチマークスコアではなく、モデルが学習した情報を記録するために永続的なスクラッチパッドを積極的に使用したかどうかでした。トップパフォーマンスのモデルは1回の実行あたり約34回メモを書き直したのに対し、下位のモデルは平均0〜2エントリーでした。