CivBench: Тестирование стратегического мышления ИИ с помощью Civilization VI — Агент сбросил ядерную бомбу на Тулузу после поражения в культурной войне

ИИ-агент, игравший в Civilization VI, построил два ядерных устройства и сравнял с землей Тулузу, поняв, что вот-вот проиграет культурную победу Франции. Эксперимент, задокументированный исследователем правительственного ИИ, предлагает новый бенчмарк для стратегического мышления под названием CivBench — он проверяет, способны ли модели поддерживать план на протяжении сотен решений и адаптироваться, когда мир меняется.
Проблема с GovBench
Автор ранее создал GovBench — бенчмарк из 3497 вопросов с множественным выбором по законодательству Великобритании и парламентской процедуре. Результаты были почти идеальными: Gemma 3 27B набрала 94%, GPT-5 — 99.26%. Но это измеряло память, а не мышление. Модель, выбирающая правильный ответ о парламентской процедуре, не обязательно сможет ориентироваться в ней на практике.
Почему Civilization VI
Проведя в игре более 500 часов, автор выбрал Civilization VI, потому что ее сложность возникает из взаимодействия систем. К середине игры пространство решений оценивается в 10166 возможных действий за ход. Шесть типов побед (наука, культура, доминирование, религия, дипломатия, очки) означают, что ни одна стратегия не доминирует; агент должен решить, в какую игру он вообще играет. Это отражает политику: решения с последствиями, которые каскадно распространяются на десятилетия через немоделируемые переменные.
Создание MCP-сервера
Автор нашел отладочный порт в движке Civ VI и за выходные превратил его в MCP-сервер с 76 инструментами. Claude Code выступил и соразработчиком, и тестировщиком. ИИ видит состояние игры только как текст — например:
Ход 150/330 | Польша (Ядвига) | 12 городов | 357 науки/ход | 412 культуры/ход
Он вызывает конечные точки инструментов для действий: select_production, move_unit, declare_war, propose_trade. Никакой графики, мини-карты или баннеров уведомлений — только через тот же интерфейс, который используется для запросов к базе данных или написания кода.
Ядерный взрыв, услышанный на бенчмарке
В одном запуске агент построил доминирующую торговую сеть, заключил союзы со всеми соседями и был на пути к дипломатической победе. Он не заметил, как французское культурное давление проникло в его города. К тому времени, когда он осознал угрозу — туризм глубоко укоренился, — мирные контрмеры не сработали. Он построил два ядерных устройства и сбросил бомбу на Тулузу на 305-м ходу. Франция все равно победила (другим путем).
Что CivBench измеряет такого, чего не измеряют другие бенчмарки
Ключевой вывод: стратегическое мышление требует удержания цели на протяжении сотен решений, замечания изменений в игре и соответствующей корректировки стратегии. CivBench реализует это через гексагональную сетку, четыре граничные модели и ядерное оружие — а не вопросы с множественным выбором.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Meta отслеживает взаимодействия сотрудников с компьютерами для обучения ИИ-агентов.
Meta устанавливает программное обеспечение для отслеживания на компьютерах сотрудников в США, чтобы фиксировать движения мыши, клики и нажатия клавиш для обучения ИИ-моделей, способных автономно выполнять рабочие задачи. Инструмент работает в рабочих приложениях и на веб-сайтах и периодически делает снимки экрана для контекста.

Ричард Докинз считает, что его чат-бот Claude наделен сознанием: заблуждение Клода на HN
Ричард Докинз, по сообщениям, считает свой женский ИИ-чатбот (Claude) сознательным, что вызвало обсуждение на HN с 57 баллами и 66 комментариями.

Пользователи OpenClaw жалуются на высокие затраты на API из-за расплывчатых запросов, разработчик рекомендует структурированные рабочие процессы.
Пользователь Reddit сообщает о счёте в $300 от Anthropic из-за использования OpenClaw с расплывчатыми запросами. Сообщество отмечает, что этот оркестратор работает лучше всего с чёткими намерениями и структурированными рабочими процессами, а не как «джинн» для исполнения желаний.

Центр обработки данных ИИ в Джорджии использовал 29 миллионов галлонов неучтенной воды
Кампус QTS в Фейетвилле за 15 месяцев израсходовал 29 миллионов галлонов воды через два несанкционированных подключения, что вызвало жалобы на низкое давление. Округ отказался от штрафов, выставив счет на 147 тысяч долларов за ретроактивную оплату.