civStation: Civilization VI 자연어 제어를 위한 오픈소스 VLM 하네스

civStation의 기능
civStation은 Civilization VI를 위해 특별히 제작된 오픈소스, 제어 가능한 컴퓨터 사용 스택 및 VLM 하네스입니다. 이 프로젝트는 게임을 저수준 UI 자동화 문제로 취급하기보다 전략 수준의 제어에 중점을 둡니다. "동쪽으로 확장하라", "이번 턴에는 경제에 집중하라", "과학 승리를 목표로 하라"와 같은 자연어 입력을 제공하면 시스템은 해당 의도를 실제 게임 내 동작으로 변환합니다.
핵심 아키텍처와 루프
시스템은 완전한 루프를 구현합니다: 화면 관찰 → 전략 해석 → 행동 계획 → 실행 → 인간 개입. 이는 인터페이스를 직접 실행에서 의도 표현과 제어 가능한 위임으로 상향 이동시킵니다. 목표는 단순히 에이전트가 Civ6를 플레이하게 하는 것이 아니라, 모델이 게임 화면을 관찰하고 고급 전략을 해석하며 행동을 계획하고 마우스와 키보드를 통해 실행하며 인간 개입(HitL) 또는 MCP를 통해 실시간으로 중단되거나 안내받을 수 있는 루프를 구축하는 것이었습니다.
현재 기능과 능력
- 실시간 데스크톱 관찰
- 호스트 머신에서의 실제 UI 상호작용
- 런타임 제어 인터페이스
- 인간 개입 제어
- MCP/기능 확장성
- 자연어 또는 음성 기반 제어
연구 질문과 동기
창작자는 여러 질문을 탐구하고 있습니다: 전략과 실행 사이의 경계는 어디에 있어야 하는가? 루프가 너무 느리거나 취약해지기 전에 컴퓨터 사용 에이전트를 얼마나 제어할 수 있는가? 이 접근 방식은 게임에만 의미가 있는가, 아니면 더 넓은 데스크톱 워크플로에도 적용 가능한가?
동기는 대부분의 컴퓨터 사용 데모가 "모델이 클릭하는 것을 지켜보는" 데 집중하는 반면, civStation은 원시 UI 상호작용 대신 전략 수준에서 작동할 수 있는 제어 가능한 런타임에 더 가까운 것을 목표로 한다는 관찰에서 비롯되었습니다. 또 다른 동기는 음성과 자연어를 컴퓨터 사용과 결합하여 플레이어가 직접 행동을 실행하기보다 지시를 내리는 전략가처럼 행동하는 다른 상호작용 계층을 열 수 있는지 테스트하는 것이었습니다.
저장소와 이용 가능성
프로젝트는 다음에서 이용 가능합니다: https://github.com/NomaDamas/civStation.git
📖 Read the full source: r/LocalLLaMA
👀 See Also

슬라이드-그랩: Claude 코드로 생성된 HTML 슬라이드를 수정하는 시각적 편집기
Slides-grab는 Claude Code로 생성된 HTML/CSS 슬라이드에서 요소를 드래그한 후, XPath와 강조된 스크린샷을 AI 에이전트에 전송하여 정밀한 편집을 가능하게 하는 도구입니다. 이 도구는 텍스트 프롬프트만으로 작은 레이아웃 문제를 수정하는 어려움을 해결합니다.

E2a: SPF/DKIM 검증 및 웹후크/웹소켓 전송을 지원하는 AI 에이전트용 오픈소스 이메일 게이트웨이
E2a는 SPF/DKIM을 확인하여 인바운드 메일을 검증하고, 웹훅 또는 WebSocket을 통해 전달하며, 사람의 승인 절차를 포함한 아웃바운드 이메일을 지원하는 AI 에이전트용 인증 이메일 게이트웨이입니다.

Chrome 스킬: AI 프롬프트를 저장하고 원클릭 도구로 재사용하기
Google의 Chrome Skills 기능을 사용하면 사용자가 AI 프롬프트를 재사용 가능한 워크플로로 저장하여 모든 웹페이지에서 한 번의 클릭으로 실행할 수 있습니다. Skills는 Chrome의 Gemini에서 슬래시(/)를 입력하거나 플러스 기호(+)를 클릭하여 접근할 수 있습니다.

OpenEvol: 대화 기록을 활용한 LLM의 오프라인 자가 개선 파이프라인
OpenEvol v0.1.1은 수동 라벨링 없이 미세 조정 데이터셋을 생성하기 위해 AI 대화 기록을 자동으로 마이닝하는 오프라인 파이프라인입니다. 초기에는 CPU에서 실행되며 OpenAI 호환 API와 HuggingFace Transformers를 포함한 5가지 교사 백엔드를 지원합니다.