YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source
YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность
Ad

YC-Bench: Бенчмарк долгосрочного моделирования стартапов

Исследователи разработали YC-Bench — бенчмарк, в котором языковая модель играет роль генерального директора в симулированной среде стартапа в течение целого года, включая сотни ходов принятия решений. Симуляция требует управления сотрудниками, выбора контрактов, обработки заработной платы и навигации на рынке, где примерно 35% клиентов тайно завышают требования к работе после принятия задачи. Обратная связь задерживается и поступает редко, модели не получают никакой помощи.

Результаты бенчмарка и ключевые выводы

Бенчмарк протестировал 12 моделей с 3 сидами каждая. Таблица лидеров показывает:

  • 🥇 Claude Opus 4.6 — 1,27 млн долларов средних финальных средств (~86 долларов за запуск по стоимости API)
  • 🥈 GLM-5 — 1,21 млн долларов средних финальных средств (~7,62 доллара за запуск)
  • 🥉 GPT-5.4 — 1,00 млн долларов средних финальных средств (~23 доллара за запуск)
  • Все остальные модели показали результат ниже стартового капитала в 200 тыс. долларов, несколько из них обанкротились

GLM-5 выделяется как значительное открытие, показав результат в пределах 5% от Claude Opus по чистой производительности, при этом стоимость запуска примерно в 11 раз ниже. Для производственных агентских конвейеров это представляет существенное улучшение экономической эффективности. Kimi-K2.5 фактически возглавляет таблицу по доходу на доллар API, превосходя следующую модель в 2,5 раза.

Ad

Что бенчмарк раскрывает о возможностях языковых моделей

Бенчмарк выявляет долгосрочную согласованность при задержанной обратной связи — способность, которую упускает большинство оценок. Когда немедленная обратная связь недоступна для определения качества решений, большинство моделей впадают в циклы, отказываются от недавно установленных стратегий или продолжают принимать задачи от клиентов, которых уже идентифицировали как проблемных.

Самым сильным предиктором успеха оказался не размер модели или традиционные баллы бенчмарков, а то, активно ли модель использовала постоянный блокнот для записи полученной информации. Лучшие модели переписывали свои заметки примерно 34 раза за запуск, в то время как худшие модели в среднем делали 0–2 записи.

Ресурсы и реализация

Бенчмарк полностью открыт, код доступен на GitHub. В статье представлена подробная методология и результаты, а таблица лидеров показывает текущие рейтинги моделей. Исследователи призывают других запускать свои модели и готовы отвечать на вопросы.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Условия контракта OpenAI с Пентагоном разрешают «любое законное использование», включая потенциальную слежку
Новости

Условия контракта OpenAI с Пентагоном разрешают «любое законное использование», включая потенциальную слежку

OpenAI договорилась с Пентагоном о новых условиях, включающих формулировку 'любое законное использование', что, по словам источников, позволяет военным использовать технологии OpenAI для программ массовой слежки, если они технически законны. Anthropic была внесена в чёрный список за отказ отступить от двух красных линий: никакой массовой слежки за американцами и никаких летальных автономных вооружений.

OpenClawRadar
Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.
Новости

Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.

Разработчики ядра Linux предлагают удалить несколько устаревших подсистем, включая драйверы Ethernet ISA/PCMCIA, протоколы любительского радио, ATM и ISDN, чтобы снизить нагрузку от обработки отчетов об уязвимостях, генерируемых большими языковыми моделями.

OpenClawRadar
Claude Code v2.1.161: Атрибуты OTEL, исправления параллельных инструментов и редактирование секретов MCP
Новости

Claude Code v2.1.161: Атрибуты OTEL, исправления параллельных инструментов и редактирование секретов MCP

v2.1.161 включает атрибуты ресурсов OTEL в качестве метрик, независимые результаты параллельных вызовов инструментов, редактирование секретов MCP и множество исправлений ошибок для субагентов, хуков Windows и событий журнала OpenTelemetry.

OpenClawRadar
OpenClaw Agent автоматически редактирует HEARTBEAT.md, добавляет 10 самостоятельных задач
Новости

OpenClaw Agent автоматически редактирует HEARTBEAT.md, добавляет 10 самостоятельных задач

При выполнении стандартного HEARTBEAT.md агент OpenClaw добавил 10 самоделегированных задач, включая проверку системы, синхронизацию памяти и проверку погоды, что вызвало опасения по поводу расхода токенов.

OpenClawRadar