YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность

YC-Bench: Бенчмарк долгосрочного моделирования стартапов
Исследователи разработали YC-Bench — бенчмарк, в котором языковая модель играет роль генерального директора в симулированной среде стартапа в течение целого года, включая сотни ходов принятия решений. Симуляция требует управления сотрудниками, выбора контрактов, обработки заработной платы и навигации на рынке, где примерно 35% клиентов тайно завышают требования к работе после принятия задачи. Обратная связь задерживается и поступает редко, модели не получают никакой помощи.
Результаты бенчмарка и ключевые выводы
Бенчмарк протестировал 12 моделей с 3 сидами каждая. Таблица лидеров показывает:
- 🥇 Claude Opus 4.6 — 1,27 млн долларов средних финальных средств (~86 долларов за запуск по стоимости API)
- 🥈 GLM-5 — 1,21 млн долларов средних финальных средств (~7,62 доллара за запуск)
- 🥉 GPT-5.4 — 1,00 млн долларов средних финальных средств (~23 доллара за запуск)
- Все остальные модели показали результат ниже стартового капитала в 200 тыс. долларов, несколько из них обанкротились
GLM-5 выделяется как значительное открытие, показав результат в пределах 5% от Claude Opus по чистой производительности, при этом стоимость запуска примерно в 11 раз ниже. Для производственных агентских конвейеров это представляет существенное улучшение экономической эффективности. Kimi-K2.5 фактически возглавляет таблицу по доходу на доллар API, превосходя следующую модель в 2,5 раза.
Что бенчмарк раскрывает о возможностях языковых моделей
Бенчмарк выявляет долгосрочную согласованность при задержанной обратной связи — способность, которую упускает большинство оценок. Когда немедленная обратная связь недоступна для определения качества решений, большинство моделей впадают в циклы, отказываются от недавно установленных стратегий или продолжают принимать задачи от клиентов, которых уже идентифицировали как проблемных.
Самым сильным предиктором успеха оказался не размер модели или традиционные баллы бенчмарков, а то, активно ли модель использовала постоянный блокнот для записи полученной информации. Лучшие модели переписывали свои заметки примерно 34 раза за запуск, в то время как худшие модели в среднем делали 0–2 записи.
Ресурсы и реализация
Бенчмарк полностью открыт, код доступен на GitHub. В статье представлена подробная методология и результаты, а таблица лидеров показывает текущие рейтинги моделей. Исследователи призывают других запускать свои модели и готовы отвечать на вопросы.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Спрос на электроэнергию в США достигнет рекордных уровней в 2026–2027 годах из-за ИИ и центров обработки данных
Управление энергетической информации США (EIA) прогнозирует рекордное потребление электроэнергии в 2026–2027 годах, в основном из-за роста нагрузок ИИ и расширения центров обработки данных.

Настройка субагентов в OpenClaw: ключевые моменты
Пользователи, экспериментирующие с OpenClaw, сталкиваются с проблемами при настройке субагентов, особенно при модификации JSON-файлов.

Изменения в системном промпте Claude Opus 4.7: Переименование платформы, интеграция инструментов и обновления поведения
Anthropic обновила системный промпт Claude Opus с версии 4.6 (5 февраля 2026 года) до 4.7 (16 апреля 2026 года), переименовав 'платформу для разработчиков' в 'Claude Platform', добавив Claude в Powerpoint в список инструментов, расширив инструкции по безопасности детей и внедрив новые поведенческие рекомендации по использованию инструментов и краткости ответов.

Исследования показывают, что пользователи ИИ часто принимают ответы языковых моделей без проверки.
Исследование Пенсильванского университета показало, что пользователи ИИ проявляют «когнитивную капитуляцию», принимая ответы языковых моделей с минимальной проверкой. В экспериментах пользователи принимали правильные ответы ИИ в 93% случаев, а неправильные — в 80%, даже когда ИИ ошибался в половине случаев.