YC-Bench тестирует LLM в роли CEO стартапов, GLM-5 демонстрирует высокую рентабельность

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source

YC-Bench: Бенчмарк долгосрочного моделирования стартапов

Исследователи разработали YC-Bench — бенчмарк, в котором языковая модель играет роль генерального директора в симулированной среде стартапа в течение целого года, включая сотни ходов принятия решений. Симуляция требует управления сотрудниками, выбора контрактов, обработки заработной платы и навигации на рынке, где примерно 35% клиентов тайно завышают требования к работе после принятия задачи. Обратная связь задерживается и поступает редко, модели не получают никакой помощи.

Результаты бенчмарка и ключевые выводы

Бенчмарк протестировал 12 моделей с 3 сидами каждая. Таблица лидеров показывает:

🥇 Claude Opus 4.6 — 1,27 млн долларов средних финальных средств (~86 долларов за запуск по стоимости API)
🥈 GLM-5 — 1,21 млн долларов средних финальных средств (~7,62 доллара за запуск)
🥉 GPT-5.4 — 1,00 млн долларов средних финальных средств (~23 доллара за запуск)
Все остальные модели показали результат ниже стартового капитала в 200 тыс. долларов, несколько из них обанкротились

GLM-5 выделяется как значительное открытие, показав результат в пределах 5% от Claude Opus по чистой производительности, при этом стоимость запуска примерно в 11 раз ниже. Для производственных агентских конвейеров это представляет существенное улучшение экономической эффективности. Kimi-K2.5 фактически возглавляет таблицу по доходу на доллар API, превосходя следующую модель в 2,5 раза.

Что бенчмарк раскрывает о возможностях языковых моделей

Бенчмарк выявляет долгосрочную согласованность при задержанной обратной связи — способность, которую упускает большинство оценок. Когда немедленная обратная связь недоступна для определения качества решений, большинство моделей впадают в циклы, отказываются от недавно установленных стратегий или продолжают принимать задачи от клиентов, которых уже идентифицировали как проблемных.

Самым сильным предиктором успеха оказался не размер модели или традиционные баллы бенчмарков, а то, активно ли модель использовала постоянный блокнот для записи полученной информации. Лучшие модели переписывали свои заметки примерно 34 раза за запуск, в то время как худшие модели в среднем делали 0–2 записи.

Ресурсы и реализация

Бенчмарк полностью открыт, код доступен на GitHub. В статье представлена подробная методология и результаты, а таблица лидеров показывает текущие рейтинги моделей. Исследователи призывают других запускать свои модели и готовы отвечать на вопросы.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.

Исследователи обнаружили ошибку блокировки ресурса в коде управления гироскопом компьютера Apollo Guidance, которая оставалась незамеченной в течение 57 лет, используя ИИ Claude и язык спецификаций Allium для анализа 130 000 строк ассемблерного кода.

17 апр. 2026 г., 16:13 UTC

OpenClawRadar

Новости

Выпуск Claude-Code версии 2.1.105: Улучшения Worktree, Мониторы плагинов и исправления интерфейса

Claude-Code v2.1.105 добавляет параметр path в инструмент EnterWorktree для переключения на существующие рабочие деревья, вводит поддержку фоновых мониторов для плагинов через ключ манифеста monitors и исправляет более 30 проблем, включая ошибки отображения интерфейса, обработку MCP-серверов и совместимость с терминалом.

16 апр. 2026 г., 20:45 UTC

OpenClawRadar

Новости

Инцидент с сервисом Claude: повышенное количество ошибок на всех платформах

2 марта 2026 года у Claude наблюдались повышенные ошибки на платформах claude.ai, console и Claude Code, с проблемами, затрагивающими пути входа/выхода и некоторые методы API. Инцидент был устранен примерно через 4 часа.

2 мар. 2026 г., 19:45 UTC

OpenClawRadar

Новости

Anthropic приобретает Vercept AI для расширения возможностей Клода по работе с компьютером

Anthropic приобрела Vercept AI для работы над функциями использования компьютера для Claude. Приобретение сосредоточено на решении проблем восприятия и взаимодействия, чтобы сделать ИИ более полезным для выполнения сложных задач.

25 февр. 2026 г., 19:45 UTC

OpenClawRadar