YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source
YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность
Ad

YC-Bench: Бенчмарк долгосрочного моделирования стартапов

Исследователи разработали YC-Bench — бенчмарк, в котором языковая модель играет роль генерального директора в симулированной среде стартапа в течение целого года, включая сотни ходов принятия решений. Симуляция требует управления сотрудниками, выбора контрактов, обработки заработной платы и навигации на рынке, где примерно 35% клиентов тайно завышают требования к работе после принятия задачи. Обратная связь задерживается и поступает редко, модели не получают никакой помощи.

Результаты бенчмарка и ключевые выводы

Бенчмарк протестировал 12 моделей с 3 сидами каждая. Таблица лидеров показывает:

  • 🥇 Claude Opus 4.6 — 1,27 млн долларов средних финальных средств (~86 долларов за запуск по стоимости API)
  • 🥈 GLM-5 — 1,21 млн долларов средних финальных средств (~7,62 доллара за запуск)
  • 🥉 GPT-5.4 — 1,00 млн долларов средних финальных средств (~23 доллара за запуск)
  • Все остальные модели показали результат ниже стартового капитала в 200 тыс. долларов, несколько из них обанкротились

GLM-5 выделяется как значительное открытие, показав результат в пределах 5% от Claude Opus по чистой производительности, при этом стоимость запуска примерно в 11 раз ниже. Для производственных агентских конвейеров это представляет существенное улучшение экономической эффективности. Kimi-K2.5 фактически возглавляет таблицу по доходу на доллар API, превосходя следующую модель в 2,5 раза.

Ad

Что бенчмарк раскрывает о возможностях языковых моделей

Бенчмарк выявляет долгосрочную согласованность при задержанной обратной связи — способность, которую упускает большинство оценок. Когда немедленная обратная связь недоступна для определения качества решений, большинство моделей впадают в циклы, отказываются от недавно установленных стратегий или продолжают принимать задачи от клиентов, которых уже идентифицировали как проблемных.

Самым сильным предиктором успеха оказался не размер модели или традиционные баллы бенчмарков, а то, активно ли модель использовала постоянный блокнот для записи полученной информации. Лучшие модели переписывали свои заметки примерно 34 раза за запуск, в то время как худшие модели в среднем делали 0–2 записи.

Ресурсы и реализация

Бенчмарк полностью открыт, код доступен на GitHub. В статье представлена подробная методология и результаты, а таблица лидеров показывает текущие рейтинги моделей. Исследователи призывают других запускать свои модели и готовы отвечать на вопросы.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Спрос на электроэнергию в США достигнет рекордных уровней в 2026–2027 годах из-за ИИ и центров обработки данных
Новости

Спрос на электроэнергию в США достигнет рекордных уровней в 2026–2027 годах из-за ИИ и центров обработки данных

Управление энергетической информации США (EIA) прогнозирует рекордное потребление электроэнергии в 2026–2027 годах, в основном из-за роста нагрузок ИИ и расширения центров обработки данных.

OpenClawRadar
Настройка субагентов в OpenClaw: ключевые моменты
Новости

Настройка субагентов в OpenClaw: ключевые моменты

Пользователи, экспериментирующие с OpenClaw, сталкиваются с проблемами при настройке субагентов, особенно при модификации JSON-файлов.

OpenClawRadar
Изменения в системном промпте Claude Opus 4.7: Переименование платформы, интеграция инструментов и обновления поведения
Новости

Изменения в системном промпте Claude Opus 4.7: Переименование платформы, интеграция инструментов и обновления поведения

Anthropic обновила системный промпт Claude Opus с версии 4.6 (5 февраля 2026 года) до 4.7 (16 апреля 2026 года), переименовав 'платформу для разработчиков' в 'Claude Platform', добавив Claude в Powerpoint в список инструментов, расширив инструкции по безопасности детей и внедрив новые поведенческие рекомендации по использованию инструментов и краткости ответов.

OpenClawRadar
Исследования показывают, что пользователи ИИ часто принимают ответы языковых моделей без проверки.
Новости

Исследования показывают, что пользователи ИИ часто принимают ответы языковых моделей без проверки.

Исследование Пенсильванского университета показало, что пользователи ИИ проявляют «когнитивную капитуляцию», принимая ответы языковых моделей с минимальной проверкой. В экспериментах пользователи принимали правильные ответы ИИ в 93% случаев, а неправильные — в 80%, даже когда ИИ ошибался в половине случаев.

OpenClawRadar