civStation: Как управлять Civilization VI голосом? Система VLM

Что делает civStation

civStation — это система визуально-языковой модели (VLM), которая позволяет играть в Civilization VI с помощью команд на естественном языке. Вместо прямого управления мышью/клавиатурой пользователи формулируют высокоуровневые стратегические намерения, которые система преобразует в реальные игровые действия.

Архитектура и функциональность

Система использует трёхуровневую архитектуру:

Стратегический уровень: Преобразует команды на естественном языке в структурированные цели, поддерживает долгосрочное направление и выполняет декомпозицию задач. Здесь обрабатываются команды типа «расширяться на восток», «сосредоточиться на экономике» или «стремиться к научной победе».
Уровень действий: Использует экранную VLM для интерпретации состояния и выполняет действия мышью/клавиатурой без доступа к игровым API.
Уровень HITL: Позволяет осуществлять вмешательство человека в реальном времени, возможности переопределения и контролируемую автономию.

Детали технической реализации

Одна стратегическая команда генерирует несколько последовательностей действий, требуя примерно 2–16 вызовов модели на задачу. Система использует исполнение на основе суб-агентов для ограниченных задач, таких как управление городом и контроль юнитов.

civStation исследует сдвиг интерфейсов от «действие → намерение» вместо традиционных подходов обучения с подкреплением, имитационного обучения или скриптовых методов. Это представляет собой переход от прямого манипулирования к делегированию и оркестровке агентов.

Ключевые проблемы и ограничения

Система сталкивается с несколькими техническими проблемами:

Ошибки восприятия VLM
Дрейф исполнения
Отсутствие надёжных механизмов верификации

Многошаговое исполнение вносит компромиссы между задержкой и стоимостью API, со стратегиями отката, которые снижают производительность. Система не является полностью автономной — она поддерживает вмешательство человека в реальном времени для коррекции стратегии и контроля.

Более широкие последствия

Эта экспериментальная система решает вопросы контроля и верификации агентов в средах, ограниченных пользовательским интерфейсом. Фокус выходит за рамки игрового процесса, поднимая интерфейс «человек-система» до стратегического уровня, позволяя пользователям работать на более высоких уровнях абстракции, а не управлять отдельными действиями.

📖 Read the full source: r/ClaudeAI