civStation: Controle por Voz no Civilization VI com VLM Open Source

O que o civStation faz

civStation é uma pilha de uso de computador controlável e de código aberto, e um sistema VLM construído especificamente para Civilization VI. Em vez de tratar o jogo como um problema de automação de interface de baixo nível, o projeto se concentra no controle em nível estratégico. Você pode fornecer entradas em linguagem natural como "expanda para o leste", "foco na economia neste turno" ou "busque uma vitória científica", e o sistema traduz essa intenção em ações reais no jogo.

Arquitetura principal e loop

O sistema implementa um loop completo: observação da tela → interpretação da estratégia → planejamento da ação → execução → supervisão humana. Isso eleva a interface da execução direta para a expressão de intenção e delegação controlável. O objetivo não era apenas fazer um agente jogar Civ6, mas construir um loop onde o modelo pode observar a tela do jogo, interpretar estratégias de alto nível, planejar ações, executá-las por meio de mouse e teclado, e ser interrompido ou guiado em tempo real por meio de humano-no-loop (HitL) ou MCP.

Recursos e capacidades atuais

Observação ao vivo da área de trabalho
Interação real com a interface do usuário na máquina hospedeira
Interface de controle em tempo de execução
Controle humano-no-loop
Extensibilidade MCP/habilidades
Controle por linguagem natural ou por voz

Questões de pesquisa e motivação

O criador está explorando várias questões: Onde deve estar o limite entre estratégia e execução? Quão controlável um agente de uso de computador pode ser antes que o loop se torne muito lento ou frágil? Essa abordagem faz sentido apenas para jogos, ou também para fluxos de trabalho mais amplos na área de trabalho?

A motivação vem da observação de que a maioria das demonstrações de uso de computador se concentra em "assistir o modelo clicar", enquanto o civStation visa algo mais próximo de um ambiente de execução controlável onde você pode operar no nível da estratégia em vez da interação bruta com a interface. Outra motivação foi testar se voz e linguagem natural, combinadas com o uso de computador, poderiam abrir uma camada de interação diferente onde o jogador se comporta mais como um estrategista dando diretrizes em vez de executar ações diretamente.

Repositório e disponibilidade

O projeto está disponível em: https://github.com/NomaDamas/civStation.git

📖 Read the full source: r/LocalLLaMA

civStation: Interface VLM de Código Aberto para Controle por Linguagem Natural do Civilization VI

O que o civStation faz

Arquitetura principal e loop

Recursos e capacidades atuais

Questões de pesquisa e motivação

Repositório e disponibilidade

👀 See Also

soul.py adiciona memória persistente a LLMs locais com uma abordagem simples baseada em arquivos

Audacity MCP Server Dá ao Claude AI Controle Total de Edição de Áudio

Desenvolvedor Cria Servidor MCP do Power Automate com 108 Ferramentas e Suporte Multiplataforma

Habilidades de Imagem do Agente: Hospedagem Simples de Imagens para Agentes de Código Claude