YC-Bench : Évaluez les LLM comme PDG de startups

YC-Bench : Un benchmark de simulation de startup à long terme

Des chercheurs ont développé YC-Bench, un benchmark où un LLM joue le rôle de PDG dans un environnement de startup simulé sur une année complète, impliquant des centaines de tours de décision. La simulation nécessite de gérer des employés, de sélectionner des contrats, de traiter les salaires et de naviguer sur un marché où environ 35 % des clients augmentent secrètement les exigences de travail après l'acceptation de la tâche. Les retours sont retardés et peu fréquents, sans assistance fournie aux modèles.

Résultats du benchmark et principales découvertes

Le benchmark a testé 12 modèles avec 3 amorces chacun. Le classement montre :

🥇 Claude Opus 4.6 - 1,27 million de dollars de fonds finaux moyens (~86 dollars par exécution en coût API)
🥈 GLM-5 - 1,21 million de dollars de fonds finaux moyens (~7,62 dollars par exécution)
🥉 GPT-5.4 - 1,00 million de dollars de fonds finaux moyens (~23 dollars par exécution)
Tous les autres modèles ont obtenu des résultats inférieurs au capital initial de 200 000 dollars, plusieurs ayant fait faillite

GLM-5 est mis en avant comme une découverte significative, obtenant des performances brutes à moins de 5 % de Claude Opus tout en coûtant environ 11 fois moins à exécuter. Pour les pipelines d'agents en production, cela représente une amélioration substantielle de l'efficacité des coûts. Kimi-K2.5 arrive en tête du classement des revenus par dollar d'API, avec 2,5 fois mieux que le modèle suivant.

Ce que le benchmark révèle sur les capacités des LLM

Le benchmark met en lumière la cohérence à long terme avec des retards de feedback, une capacité que la plupart des évaluations négligent. Lorsque des retours immédiats ne sont pas disponibles pour déterminer la qualité des décisions, la plupart des modèles tombent dans des boucles, abandonnent des stratégies récemment établies ou continuent d'accepter des tâches de clients déjà identifiés comme problématiques.

Le meilleur prédicteur de succès n'était pas la taille du modèle ou les scores de benchmarks traditionnels, mais si le modèle utilisait activement un bloc-notes persistant pour enregistrer les informations apprises. Les modèles les plus performants réécrivaient leurs notes environ 34 fois par exécution, tandis que les modèles les moins performants enregistraient en moyenne 0 à 2 entrées.

Ressources et mise en œuvre

Le benchmark est entièrement open-source avec le code disponible sur GitHub. L'article fournit une méthodologie et des résultats détaillés, tandis que le classement montre les rangs actuels des modèles. Les chercheurs encouragent d'autres à exécuter leurs propres modèles et sont disponibles pour répondre aux questions.

📖 Read the full source: r/LocalLLaMA

YC-Bench évalue les LLM en tant que PDG de startups, GLM-5 démontre une forte rentabilité

YC-Bench : Un benchmark de simulation de startup à long terme

Résultats du benchmark et principales découvertes

Ce que le benchmark révèle sur les capacités des LLM

Ressources et mise en œuvre

👀 See Also

NVIDIA dévoile Nemotron-3-Ultra-550B : 55B paramètres actifs, contexte 1M, hybride LatentMoE

Sakana AI lance le laboratoire RSI : amélioration récursive de soi avec des modèles fondamentaux

Difficultés d'un LLM local avec le Solitaire Unreal Engine : Qwen 3.6-27B brûle 687 000 jetons sur une carte

Anthropic lance le programme des ambassadeurs de la communauté Claude