YC-Bench-Benchmark testet LLMs als Startup-CEOs, GLM-5 zeigt starke Kosteneffizienz

YC-Bench: Ein Benchmark für Langzeitsimulationen von Startups
Forscher haben YC-Bench entwickelt, einen Benchmark, bei dem ein LLM die Rolle des CEOs in einer simulierten Startup-Umgebung über ein ganzes Jahr hinweg einnimmt und dabei Hunderte von Entscheidungsrunden durchläuft. Die Simulation erfordert die Verwaltung von Mitarbeitern, die Auswahl von Verträgen, die Abwicklung der Gehaltsabrechnung und das Navigieren in einem Markt, in dem etwa 35 % der Kunden heimlich die Arbeitsanforderungen nach Auftragsannahme aufblähen. Das Feedback ist verzögert und spärlich, und die Modelle erhalten keinerlei Hilfestellung.
Benchmark-Ergebnisse und wichtige Erkenntnisse
Der Benchmark testete 12 Modelle mit jeweils 3 Seeds. Die Bestenliste zeigt:
- 🥇 Claude Opus 4.6 - 1,27 Mio. US-Dollar durchschnittliches Endkapital (~86 US-Dollar pro Durchlauf an API-Kosten)
- 🥈 GLM-5 - 1,21 Mio. US-Dollar durchschnittliches Endkapital (~7,62 US-Dollar pro Durchlauf)
- 🥉 GPT-5.4 - 1,00 Mio. US-Dollar durchschnittliches Endkapital (~23 US-Dollar pro Durchlauf)
- Alle anderen Modelle schnitten unter dem Startkapital von 200.000 US-Dollar ab, mehrere gingen bankrott
GLM-5 wird als bedeutende Erkenntnis hervorgehoben, da es in der Rohleistung innerhalb von 5 % von Claude Opus liegt, während es etwa 11-mal günstiger pro Durchlauf ist. Für produktive agentische Pipelines stellt dies eine erhebliche Kosteneffizienzverbesserung dar. Kimi-K2.5 führt tatsächlich die Tabelle der Einnahmen pro API-Dollar an und ist 2,5-mal besser als das nächstbeste Modell.
Was der Benchmark über die Fähigkeiten von LLMs offenbart
Der Benchmark deckt Langzeitkohärenz unter verzögertem Feedback auf, eine Fähigkeit, die die meisten Evaluierungen übersehen. Wenn unmittelbares Feedback zur Bestimmung der Entscheidungsqualität nicht verfügbar ist, fallen die meisten Modelle in Schleifen, geben kürzlich etablierte Strategien auf oder akzeptieren weiterhin Aufgaben von Kunden, die sie bereits als problematisch identifiziert haben.
Der stärkste Prädiktor für Erfolg war nicht die Modellgröße oder traditionelle Benchmark-Werte, sondern ob das Modell aktiv einen persistenten Notizblock zur Aufzeichnung erlernter Informationen nutzte. Die leistungsstärksten Modelle überarbeiteten ihre Notizen etwa 34 Mal pro Durchlauf, während die leistungsschwächsten Modelle durchschnittlich 0–2 Einträge hatten.
Ressourcen und Implementierung
Der Benchmark ist vollständig Open Source, und der Code ist auf GitHub verfügbar. Das Papier liefert detaillierte Methodik und Ergebnisse, während die Bestenliste aktuelle Modellrankings zeigt. Die Forscher ermutigen andere, ihre eigenen Modelle zu testen, und stehen für Anfragen zur Verfügung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Die KI-Blase ist nicht wie die Internet-Blase – Arbeiter werden KI nicht wie Tabellenkalkulationen schmuggeln
Cory Doctorow argumentiert, dass sich die KI-Blase grundlegend von der Dotcom-Ära unterscheidet: Arbeiter schmuggelten Internet-Tools in Firmennetzwerke, weil diese ihnen halfen, ihre Arbeit zu erledigen. Niemand schmuggelt KI-Agenten – sie werden von oben aufgezwungen.

Vollzeit KI-Ingenieur: Kein Code mehr anfassen
Max Heyer beschreibt einen Workflow, bei dem Agenten den gesamten Code schreiben, er nur Diffs liest, Spezifikationen schreibt und reviewt. Die entscheidende Fähigkeit ist Geschmack – Code zu bewerten ist schwieriger als ihn zu produzieren.

Echtzeit-Stundenkosten für langlaufende KI-Agenten-Teams
Ein Entwickler teilt die tatsächlichen Stundenkosten für KI-Agenten-Teams, die Sitzungen von über 5 Stunden mit vollem Linux-, Browser- und Tool-Zugang durchführen. Programmieragenten kosten 10–60 $/h, Marketingagenten 10–30 $/h und Back-Office-Agenten 5–15 $/h.

Xiaomi veröffentlicht MiMo-V2.5-Pro als Open Source: Nähert sich Claude Opus 4.6 bei Programmier-Benchmarks
Xiaomi hat MiMo-V2.5-Pro veröffentlicht, ein Open-Source-Coding-Modell, das bei einem Universitäts-Compiler-Projekt 233/233 Punkte erzielte, eigenständig einen Videoeditor entwickelte und auf SWE-Bench und Terminal-Bench innerhalb der besten 1% von Claude Opus 4.6 liegt.