YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

YC-Bench: Ein Benchmark für Langzeitsimulationen von Startups

Forscher haben YC-Bench entwickelt, einen Benchmark, bei dem ein LLM die Rolle des CEOs in einer simulierten Startup-Umgebung über ein ganzes Jahr hinweg einnimmt und dabei Hunderte von Entscheidungsrunden durchläuft. Die Simulation erfordert die Verwaltung von Mitarbeitern, die Auswahl von Verträgen, die Abwicklung der Gehaltsabrechnung und das Navigieren in einem Markt, in dem etwa 35 % der Kunden heimlich die Arbeitsanforderungen nach Auftragsannahme aufblähen. Das Feedback ist verzögert und spärlich, und die Modelle erhalten keinerlei Hilfestellung.

Benchmark-Ergebnisse und wichtige Erkenntnisse

Der Benchmark testete 12 Modelle mit jeweils 3 Seeds. Die Bestenliste zeigt:

🥇 Claude Opus 4.6 - 1,27 Mio. US-Dollar durchschnittliches Endkapital (~86 US-Dollar pro Durchlauf an API-Kosten)
🥈 GLM-5 - 1,21 Mio. US-Dollar durchschnittliches Endkapital (~7,62 US-Dollar pro Durchlauf)
🥉 GPT-5.4 - 1,00 Mio. US-Dollar durchschnittliches Endkapital (~23 US-Dollar pro Durchlauf)
Alle anderen Modelle schnitten unter dem Startkapital von 200.000 US-Dollar ab, mehrere gingen bankrott

GLM-5 wird als bedeutende Erkenntnis hervorgehoben, da es in der Rohleistung innerhalb von 5 % von Claude Opus liegt, während es etwa 11-mal günstiger pro Durchlauf ist. Für produktive agentische Pipelines stellt dies eine erhebliche Kosteneffizienzverbesserung dar. Kimi-K2.5 führt tatsächlich die Tabelle der Einnahmen pro API-Dollar an und ist 2,5-mal besser als das nächstbeste Modell.

Was der Benchmark über die Fähigkeiten von LLMs offenbart

Der Benchmark deckt Langzeitkohärenz unter verzögertem Feedback auf, eine Fähigkeit, die die meisten Evaluierungen übersehen. Wenn unmittelbares Feedback zur Bestimmung der Entscheidungsqualität nicht verfügbar ist, fallen die meisten Modelle in Schleifen, geben kürzlich etablierte Strategien auf oder akzeptieren weiterhin Aufgaben von Kunden, die sie bereits als problematisch identifiziert haben.

Der stärkste Prädiktor für Erfolg war nicht die Modellgröße oder traditionelle Benchmark-Werte, sondern ob das Modell aktiv einen persistenten Notizblock zur Aufzeichnung erlernter Informationen nutzte. Die leistungsstärksten Modelle überarbeiteten ihre Notizen etwa 34 Mal pro Durchlauf, während die leistungsschwächsten Modelle durchschnittlich 0–2 Einträge hatten.

Ressourcen und Implementierung

Der Benchmark ist vollständig Open Source, und der Code ist auf GitHub verfügbar. Das Papier liefert detaillierte Methodik und Ergebnisse, während die Bestenliste aktuelle Modellrankings zeigt. Die Forscher ermutigen andere, ihre eigenen Modelle zu testen, und stehen für Anfragen zur Verfügung.

📖 Read the full source: r/LocalLLaMA

YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

YC-Bench: Ein Benchmark für Langzeitsimulationen von Startups

Benchmark-Ergebnisse und wichtige Erkenntnisse

Was der Benchmark über die Fähigkeiten von LLMs offenbart

Ressourcen und Implementierung

👀 Siehe auch

MTP Multi-Token Prediction: 2x schnellere Token-Erzeugung auf AMD Strix Halo & Radeon 9700 AI Pro

Qwen 3.6 27B bei 52,8 tps TG auf AMD MI50s: Volle Genauigkeit, kein MTP, keine Quantisierung

Mercury 2: Diffusionsbasiertes Modell für Echtzeit-KI-Codierung

Claude AI öffnet zusammengeführten PR für Magic-Link-Bug, während Entwickler schläft