civStation: 자연어로 문명 VI 플레이하는 VLM 시스템

civStation의 기능

civStation은 자연어 명령을 통해 Civilization VI를 플레이할 수 있게 하는 비전-언어 모델(VLM) 시스템입니다. 직접적인 마우스/키보드 조작 대신, 사용자는 고수준 전략 의도를 발령하면 시스템이 이를 실제 게임 액션으로 변환합니다.

이 시스템은 3계층 아키텍처를 채택합니다:

전략 계층: 자연어 명령을 구조화된 목표로 변환하고, 장기적 방향을 유지하며, 작업 분해를 수행합니다. "동쪽으로 확장하라," "경제에 집중하라," 또는 "과학 승리를 목표로 하라"와 같은 명령이 여기서 처리됩니다.
액션 계층: 화면 기반 VLM을 사용하여 상태를 해석하고, 게임 API에 접근하지 않고 마우스/키보드 액션을 실행합니다.
HITL 계층: 실시간 인간 개입, 재정의 기능, 제어 가능한 자율성을 가능하게 합니다.

하나의 전략 명령은 여러 액션 시퀀스를 생성하며, 작업당 약 2~16회의 모델 호출이 필요합니다. 이 시스템은 도시 관리 및 유닛 제어와 같은 제한된 작업을 위해 하위 에이전트 기반 실행을 사용합니다.

civStation은 전통적인 강화 학습, 모방 학습 또는 스크립트 기반 접근법 대신 "액션 → 의도"로 인터페이스를 전환하는 방식을 탐구합니다. 이는 직접 조작에서 위임 및 에이전트 오케스트레이션으로의 이동을 나타냅니다.

이 시스템은 여러 기술적 과제에 직면합니다:

다단계 실행은 지연 시간과 API 비용 간의 균형을 도입하며, 성능을 저하시키는 폴백 전략을 수반합니다. 이 시스템은 완전히 자율적이지 않습니다—실시간 전략 수정과 제어를 위해 인간 개입이 가능한 루프를 지원합니다.

이 실험적 시스템은 UI만 존재하는 환경에서 에이전트 제어와 검증을 다룹니다. 초점은 게임 플레이를 넘어 인간-시스템 인터페이스를 전략 수준으로 높이는 데 있으며, 사용자가 개별 액션을 관리하는 대신 더 높은 추상화 수준에서 운영할 수 있게 합니다.

📖 Read the full source: r/ClaudeAI