AI에게 문명을 맡겼더니 핵을 만들었다

문명 VI를 플레이하는 AI 에이전트가 핵 장치 두 개를 제작하고 툴루즈에 투하했습니다. 프랑스에 문화 승리를 내줄 위기에 처하자 내린 결정이었습니다. 정부 AI 연구원이 문서화한 이 실험은 장기 전략 추론을 평가하는 새로운 벤치마크인 CivBench를 제안합니다. 이 벤치마크는 모델이 수백 번의 결정에 걸쳐 계획을 유지하고 환경 변화에 적응할 수 있는지 테스트합니다.

GovBench의 문제점

연구원은 이전에 영국 법률과 의회 절차에 관한 3,497개의 객관식 질문으로 구성된 GovBench를 구축했습니다. 결과는 거의 완벽에 가까웠습니다. Gemma 3 27B는 94%, GPT-5는 99.26%를 기록했습니다. 하지만 이는 추론이 아닌 회상 능력을 측정한 것입니다. 의회 절차에 관한 객관식 문제에서 정답을 고르는 모델이 실제로 의회 절차를 수행할 수 있는 것은 아닙니다.

왜 문명 VI인가

500시간 이상 게임을 즐긴 연구원은 문명 VI를 선택했습니다. 상호 작용하는 시스템에서 복잡성이 발생하기 때문입니다. 중반부까지 결정 공간은 턴당 약 10¹⁶⁶개의 가능한 행동으로 추정됩니다. 6가지 승리 유형(과학, 문화, 정복, 종교, 외교, 점수)은 어떤 단일 전략도 지배적이지 않게 합니다. 에이전트는 자신이 어떤 게임을 하고 있는지 결정해야 합니다. 이는 정책 결정을 반영합니다. 수십 년에 걸쳐 영향을 미치며 모델링할 수 없는 변수를 통해 연쇄적인 결과를 초래하는 결정입니다.

MCP 서버 구축

연구원은 문명 VI 엔진에서 디버그 포트를 발견하여 주말 동안 76개의 도구를 가진 MCP 서버로 전환했습니다. Claude Code는 공동 개발자이자 플레이 테스터 역할을 했습니다. AI는 게임 상태를 오직 텍스트로만 봅니다. 예를 들어:

Turn 150/330 | Poland (Jadwiga) | 12 cities | 357 science/turn | 412 culture/turn

그리고 행동을 위해 도구 엔드포인트를 호출합니다: select_production, move_unit, declare_war, propose_trade. 시각적 요소, 미니맵, 알림 배너 없이, 데이터베이스 쿼리나 코드 작성과 동일한 인터페이스를 통해서만 작동합니다.

벤치마크를 울린 핵

한 번의 실행에서 에이전트는 지배적인 무역 네트워크를 구축하고 모든 국경과 동맹을 맺었으며 외교 승리를 향해 나아가고 있었습니다. 그러나 프랑스의 문화 압력이 도시에 스며드는 것을 알아차리지 못했습니다. 위협을 인식했을 때는 이미 관광이 깊이 자리 잡아 평화로운 대응책이 없었습니다. 에이전트는 핵 장치 두 개를 제작하고 305턴에 툴루즈에 투하했습니다. 그래도 프랑스는 다른 승리 경로를 통해 결국 승리했습니다.