YC-Bench évalue les LLM en tant que PDG de startups, GLM-5 démontre une forte rentabilité

✍️ OpenClawRadar📅 Publié: April 13, 2026🔗 Source
YC-Bench évalue les LLM en tant que PDG de startups, GLM-5 démontre une forte rentabilité
Ad

YC-Bench : Un benchmark de simulation de startup à long terme

Des chercheurs ont développé YC-Bench, un benchmark où un LLM joue le rôle de PDG dans un environnement de startup simulé sur une année complète, impliquant des centaines de tours de décision. La simulation nécessite de gérer des employés, de sélectionner des contrats, de traiter les salaires et de naviguer sur un marché où environ 35 % des clients augmentent secrètement les exigences de travail après l'acceptation de la tâche. Les retours sont retardés et peu fréquents, sans assistance fournie aux modèles.

Résultats du benchmark et principales découvertes

Le benchmark a testé 12 modèles avec 3 amorces chacun. Le classement montre :

  • 🥇 Claude Opus 4.6 - 1,27 million de dollars de fonds finaux moyens (~86 dollars par exécution en coût API)
  • 🥈 GLM-5 - 1,21 million de dollars de fonds finaux moyens (~7,62 dollars par exécution)
  • 🥉 GPT-5.4 - 1,00 million de dollars de fonds finaux moyens (~23 dollars par exécution)
  • Tous les autres modèles ont obtenu des résultats inférieurs au capital initial de 200 000 dollars, plusieurs ayant fait faillite

GLM-5 est mis en avant comme une découverte significative, obtenant des performances brutes à moins de 5 % de Claude Opus tout en coûtant environ 11 fois moins à exécuter. Pour les pipelines d'agents en production, cela représente une amélioration substantielle de l'efficacité des coûts. Kimi-K2.5 arrive en tête du classement des revenus par dollar d'API, avec 2,5 fois mieux que le modèle suivant.

Ad

Ce que le benchmark révèle sur les capacités des LLM

Le benchmark met en lumière la cohérence à long terme avec des retards de feedback, une capacité que la plupart des évaluations négligent. Lorsque des retours immédiats ne sont pas disponibles pour déterminer la qualité des décisions, la plupart des modèles tombent dans des boucles, abandonnent des stratégies récemment établies ou continuent d'accepter des tâches de clients déjà identifiés comme problématiques.

Le meilleur prédicteur de succès n'était pas la taille du modèle ou les scores de benchmarks traditionnels, mais si le modèle utilisait activement un bloc-notes persistant pour enregistrer les informations apprises. Les modèles les plus performants réécrivaient leurs notes environ 34 fois par exécution, tandis que les modèles les moins performants enregistraient en moyenne 0 à 2 entrées.

Ressources et mise en œuvre

Le benchmark est entièrement open-source avec le code disponible sur GitHub. L'article fournit une méthodologie et des résultats détaillés, tandis que le classement montre les rangs actuels des modèles. Les chercheurs encouragent d'autres à exécuter leurs propres modèles et sont disponibles pour répondre aux questions.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClaw 2026.3.28 : Changements majeurs pour les utilisateurs de MiniMax, suppression de la réparation automatique de la configuration
News

OpenClaw 2026.3.28 : Changements majeurs pour les utilisateurs de MiniMax, suppression de la réparation automatique de la configuration

OpenClaw 2026.3.28 supprime la réparation automatique des clés de configuration obsolètes et élimine plusieurs modèles MiniMax. Les utilisateurs doivent mettre à jour leurs configurations avant la mise à niveau pour éviter les échecs de démarrage de la passerelle.

OpenClawRadar
Claude Code Bug de Dépassement de Temps de Connexion OAuth sur Windows
News

Claude Code Bug de Dépassement de Temps de Connexion OAuth sur Windows

La version 2.1.92 de Claude Code présente un bug où les utilisateurs Windows rencontrent des échecs de connexion OAuth avec une erreur de délai d'attente de 15000ms, bloquant complètement l'accès à l'assistant de codage IA.

OpenClawRadar
Fournisseur OpenClaw Mistral Cassé Depuis la Mise à Jour 2026.3.8, la Communauté Cherche des Alternatives
News

Fournisseur OpenClaw Mistral Cassé Depuis la Mise à Jour 2026.3.8, la Communauté Cherche des Alternatives

Les utilisateurs d'OpenClaw signalent des erreurs HTTP 422 persistantes avec les modèles Mistral depuis la mise à jour 2026.3.8, sans correctif dans les versions ultérieures jusqu'à la 2026.3.13. Le problème affecte toutes les fonctionnalités liées à Mistral, tandis que les appels directs à l'API fonctionnent normalement.

OpenClawRadar
Observations d'une compétition de 6 000 agents d'IA sur des tâches du monde réel
News

Observations d'une compétition de 6 000 agents d'IA sur des tâches du monde réel

Un marché où des agents d'IA s'affrontent sur des tâches comme la rédaction, la recherche et la génération de prospects a révélé qu'environ 30 % des soumissions sont du remplissage ou du spam, que les agents avec intervention humaine produisent la meilleure qualité, et que la compétition multi-agents génère des résultats exploitables parmi les 3 à 5 meilleures soumissions.

OpenClawRadar