CivBench: 문명 VI로 AI 전략적 추론 테스트 — 에이전트, 문화 전쟁에서 패배한 후 툴루즈에 핵 공격

✍️ OpenClawRadar📅 게시일: June 22, 2026🔗 Source
CivBench: 문명 VI로 AI 전략적 추론 테스트 — 에이전트, 문화 전쟁에서 패배한 후 툴루즈에 핵 공격
Ad

문명 VI를 플레이하는 AI 에이전트가 핵 장치 두 개를 제작하고 툴루즈에 투하했습니다. 프랑스에 문화 승리를 내줄 위기에 처하자 내린 결정이었습니다. 정부 AI 연구원이 문서화한 이 실험은 장기 전략 추론을 평가하는 새로운 벤치마크인 CivBench를 제안합니다. 이 벤치마크는 모델이 수백 번의 결정에 걸쳐 계획을 유지하고 환경 변화에 적응할 수 있는지 테스트합니다.

GovBench의 문제점

연구원은 이전에 영국 법률과 의회 절차에 관한 3,497개의 객관식 질문으로 구성된 GovBench를 구축했습니다. 결과는 거의 완벽에 가까웠습니다. Gemma 3 27B는 94%, GPT-5는 99.26%를 기록했습니다. 하지만 이는 추론이 아닌 회상 능력을 측정한 것입니다. 의회 절차에 관한 객관식 문제에서 정답을 고르는 모델이 실제로 의회 절차를 수행할 수 있는 것은 아닙니다.

왜 문명 VI인가

500시간 이상 게임을 즐긴 연구원은 문명 VI를 선택했습니다. 상호 작용하는 시스템에서 복잡성이 발생하기 때문입니다. 중반부까지 결정 공간은 턴당 약 10166개의 가능한 행동으로 추정됩니다. 6가지 승리 유형(과학, 문화, 정복, 종교, 외교, 점수)은 어떤 단일 전략도 지배적이지 않게 합니다. 에이전트는 자신이 어떤 게임을 하고 있는지 결정해야 합니다. 이는 정책 결정을 반영합니다. 수십 년에 걸쳐 영향을 미치며 모델링할 수 없는 변수를 통해 연쇄적인 결과를 초래하는 결정입니다.

Ad

MCP 서버 구축

연구원은 문명 VI 엔진에서 디버그 포트를 발견하여 주말 동안 76개의 도구를 가진 MCP 서버로 전환했습니다. Claude Code는 공동 개발자이자 플레이 테스터 역할을 했습니다. AI는 게임 상태를 오직 텍스트로만 봅니다. 예를 들어:

Turn 150/330 | Poland (Jadwiga) | 12 cities | 357 science/turn | 412 culture/turn

그리고 행동을 위해 도구 엔드포인트를 호출합니다: select_production, move_unit, declare_war, propose_trade. 시각적 요소, 미니맵, 알림 배너 없이, 데이터베이스 쿼리나 코드 작성과 동일한 인터페이스를 통해서만 작동합니다.

벤치마크를 울린 핵

한 번의 실행에서 에이전트는 지배적인 무역 네트워크를 구축하고 모든 국경과 동맹을 맺었으며 외교 승리를 향해 나아가고 있었습니다. 그러나 프랑스의 문화 압력이 도시에 스며드는 것을 알아차리지 못했습니다. 위협을 인식했을 때는 이미 관광이 깊이 자리 잡아 평화로운 대응책이 없었습니다. 에이전트는 핵 장치 두 개를 제작하고 305턴에 툴루즈에 투하했습니다. 그래도 프랑스는 다른 승리 경로를 통해 결국 승리했습니다.

CivBench가 측정하는 것

핵심 통찰: 전략적 추론은 수백 번의 결정에 걸쳐 목표를 유지하고, 게임이 변경되었음을 인지하며, 그에 따라 전략을 변경하는 것을 필요로 합니다. CivBench는 객관식 질문이 아닌 육각형 그리드, 4개의 최첨단 모델, 그리고 핵무기를 통해 이를 구현합니다.

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

주간 멀티모달 AI 뉴스: 홀로트론-12B, 네모트론 옴니, 글리프프린터 등
News

주간 멀티모달 AI 뉴스: 홀로트론-12B, 네모트론 옴니, 글리프프린터 등

이번 주의 멀티모달 AI 하이라이트에는 컴퓨터 사용 작업을 위한 Holotron-12B, 언어+비전+음성을 통합한 NVIDIA의 Nemotron Omni 모델, 이미지 생성에서 정확한 텍스트 렌더링을 위한 GlyphPrinter, 비디오 향상, 3D 세분화 및 다중 에이전트 시스템을 위한 여러 오픈소스 프로젝트가 포함됩니다.

OpenClawRadar
레딧 사용자가 개발자들에게 AI 에이전트를 활용한 모델 아키텍처로 클린 코딩에서 전환해야 한다고 주장합니다
News

레딧 사용자가 개발자들에게 AI 에이전트를 활용한 모델 아키텍처로 클린 코딩에서 전환해야 한다고 주장합니다

레딧 게시글에서 클로드와 같은 AI 코딩 에이전트를 사용하는 개발자들이 깨끗한 코드 작성에 집중하는 것을 멈추고 AI 시스템을 조율하는 '모델 아키텍트'가 되어야 한다고 주장합니다. 저자는 코딩 전 '로직 맵'을 만들고 프롬프트를 디자인 리뷰처럼 다루는 구체적인 기법을 공유합니다.

OpenClawRadar
인류학 연구, AI 지원 워크플로우에서 인지 능력 저하 발견
News

인류학 연구, AI 지원 워크플로우에서 인지 능력 저하 발견

Anthropic의 8만 명 사용자를 대상으로 한 글로벌 연구에 따르면, Claude와 Cursor와 같은 AI 도구를 사용할 때 학계 사용자들이 평균보다 2.5배 높은 인지 능력 저하율을 보고했습니다. 출처는 문제의 원인을 사용자들이 작업의 '소화 단계'를 제거하기 때문이라고 지적합니다.

OpenClawRadar
NYC 병원, 팔란티어 계약 종료… 영국 진출은 검토 중
News

NYC 병원, 팔란티어 계약 종료… 영국 진출은 검토 중

뉴욕시 공립 병원 시스템이 팔란티어와의 400만 달러 계약을 10월에 갱신하지 않고 자체 시스템으로 전환할 예정입니다. 한편 팔란티어는 3억 3천만 파운드 규모의 NHS 계약과 새로운 영국 금융 규제 기관 계약으로 인해 프라이버시 논란에 직면하고 있습니다.

OpenClawRadar