YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность

YC-Bench: Бенчмарк долгосрочного моделирования стартапов
Исследователи разработали YC-Bench — бенчмарк, в котором языковая модель играет роль генерального директора в симулированной среде стартапа в течение целого года, включая сотни ходов принятия решений. Симуляция требует управления сотрудниками, выбора контрактов, обработки заработной платы и навигации на рынке, где примерно 35% клиентов тайно завышают требования к работе после принятия задачи. Обратная связь задерживается и поступает редко, модели не получают никакой помощи.
Результаты бенчмарка и ключевые выводы
Бенчмарк протестировал 12 моделей с 3 сидами каждая. Таблица лидеров показывает:
- 🥇 Claude Opus 4.6 — 1,27 млн долларов средних финальных средств (~86 долларов за запуск по стоимости API)
- 🥈 GLM-5 — 1,21 млн долларов средних финальных средств (~7,62 доллара за запуск)
- 🥉 GPT-5.4 — 1,00 млн долларов средних финальных средств (~23 доллара за запуск)
- Все остальные модели показали результат ниже стартового капитала в 200 тыс. долларов, несколько из них обанкротились
GLM-5 выделяется как значительное открытие, показав результат в пределах 5% от Claude Opus по чистой производительности, при этом стоимость запуска примерно в 11 раз ниже. Для производственных агентских конвейеров это представляет существенное улучшение экономической эффективности. Kimi-K2.5 фактически возглавляет таблицу по доходу на доллар API, превосходя следующую модель в 2,5 раза.
Что бенчмарк раскрывает о возможностях языковых моделей
Бенчмарк выявляет долгосрочную согласованность при задержанной обратной связи — способность, которую упускает большинство оценок. Когда немедленная обратная связь недоступна для определения качества решений, большинство моделей впадают в циклы, отказываются от недавно установленных стратегий или продолжают принимать задачи от клиентов, которых уже идентифицировали как проблемных.
Самым сильным предиктором успеха оказался не размер модели или традиционные баллы бенчмарков, а то, активно ли модель использовала постоянный блокнот для записи полученной информации. Лучшие модели переписывали свои заметки примерно 34 раза за запуск, в то время как худшие модели в среднем делали 0–2 записи.
Ресурсы и реализация
Бенчмарк полностью открыт, код доступен на GitHub. В статье представлена подробная методология и результаты, а таблица лидеров показывает текущие рейтинги моделей. Исследователи призывают других запускать свои модели и готовы отвечать на вопросы.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Условия контракта OpenAI с Пентагоном разрешают «любое законное использование», включая потенциальную слежку
OpenAI договорилась с Пентагоном о новых условиях, включающих формулировку 'любое законное использование', что, по словам источников, позволяет военным использовать технологии OpenAI для программ массовой слежки, если они технически законны. Anthropic была внесена в чёрный список за отказ отступить от двух красных линий: никакой массовой слежки за американцами и никаких летальных автономных вооружений.

Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.
Разработчики ядра Linux предлагают удалить несколько устаревших подсистем, включая драйверы Ethernet ISA/PCMCIA, протоколы любительского радио, ATM и ISDN, чтобы снизить нагрузку от обработки отчетов об уязвимостях, генерируемых большими языковыми моделями.

Claude Code v2.1.161: Атрибуты OTEL, исправления параллельных инструментов и редактирование секретов MCP
v2.1.161 включает атрибуты ресурсов OTEL в качестве метрик, независимые результаты параллельных вызовов инструментов, редактирование секретов MCP и множество исправлений ошибок для субагентов, хуков Windows и событий журнала OpenTelemetry.

OpenClaw Agent автоматически редактирует HEARTBEAT.md, добавляет 10 самостоятельных задач
При выполнении стандартного HEARTBEAT.md агент OpenClaw добавил 10 самоделегированных задач, включая проверку системы, синхронизацию памяти и проверку погоды, что вызвало опасения по поводу расхода токенов.