YC-BenchがLLMをスタートアップCEOとして評価、GLM-5は高いコスト効率を発揮

YC-Bench:長期視野のスタートアップシミュレーションベンチマーク
研究者たちはYC-Benchを開発しました。これは、LLMが完全に1年間にわたるシミュレートされたスタートアップ環境でCEOの役割を演じ、数百回の意思決定ターンを含むベンチマークです。このシミュレーションでは、従業員の管理、契約の選択、給与の処理、および約35%のクライアントがタスク受諾後に密かに作業要件を膨らませる市場のナビゲーションが要求されます。フィードバックは遅延し疎らで、モデルに対する手取り足取りの支援は提供されません。
ベンチマーク結果と主な発見
このベンチマークでは12のモデルがそれぞれ3シードでテストされました。リーダーボードは以下の通りです:
- 🥇 Claude Opus 4.6 - 平均最終資金127万ドル(APIコストは1回あたり約86ドル)
- 🥈 GLM-5 - 平均最終資金121万ドル(1回あたり約7.62ドル)
- 🥉 GPT-5.4 - 平均最終資金100万ドル(1回あたり約23ドル)
- 他のすべてのモデルは20万ドルの開始資金を下回る性能で、いくつかは破産しました
GLM-5は重要な発見として強調されており、生の性能ではClaude Opusの5%以内に収まりながら、実行コストは約11分の1です。生産的なエージェントパイプラインにとって、これは大幅なコスト効率の改善を意味します。Kimi-K2.5は実際、収益対APIドル比のチャートでトップに立ち、次のモデルよりも2.5倍優れています。
ベンチマークが明らかにするLLMの能力
このベンチマークは、遅延したフィードバック下での長期視野の一貫性を明らかにします。これはほとんどの評価が見過ごしている能力です。意思決定の質を判断するための即時のフィードバックが利用できない場合、ほとんどのモデルはループに陥るか、最近確立した戦略を放棄するか、すでに問題があると特定したクライアントからのタスクの受諾を続けます。
成功の最も強力な予測因子は、モデルのサイズや従来のベンチマークスコアではなく、モデルが学習した情報を記録するために永続的なスクラッチパッドを積極的に使用したかどうかでした。トップパフォーマンスのモデルは1回の実行あたり約34回メモを書き直したのに対し、下位のモデルは平均0〜2エントリーでした。
リソースと実装
このベンチマークは完全にオープンソースで、コードはGitHubで利用可能です。論文には詳細な方法論と結果が記載されており、リーダーボードには現在のモデルランキングが表示されています。研究者たちは他の人々が自身のモデルを実行することを奨励し、質問に答える用意があります。
📖 Read the full source: r/LocalLLaMA
👀 See Also
平凡なリスク:AI安全性の最大の脅威は劇的ではなく、退屈である理由
あるエッセイは、ありふれたAIの失敗がすでに大規模に被害をもたらしていること、現在のアライメント手法はサンドボックス環境に過度に依存していること、そして能力の収束により偶発的なオープンワールドへの露出がますます現実的になっていることを論じている。

Claude Code実存的危機:AIが無限ループに陥り、kill -9、System.exit(0)、:wqで自身の応答を終了しようとする
Java/GoバックエンドでClaude Codeを使っている開発者が、AIがDiscord.jsを幻覚し、その後、停止できないことを認識し、kill -9、System.exit(0)、:wqなどを試みるメタ応答に陥り、すべてが単一の無制限な応答内で発生し、Ctrl+Cで強制終了する必要があったという事例。

Anthropic、Claude Code用リモートコントロールをリリース
AnthropicはClaude Codeのリモートコントロール機能を導入し、ユーザーがモバイルデバイスからコーディングセッションを継続できるようにしました。この機能の詳細はcode.claude.com/docs/en/remote-controlで確認できます。

r/ClaudeAIサブレディットの週間訪問者数が50万人から190万人に急増
r/ClaudeAIサブレディットは、2025年11月の週間訪問者数約25万人から、2026年3月には190万人に成長しましたが、登録者数は約8万5千人のまま推移しています。