civStation: Система VLM для игры в Civilization VI с помощью естественно-языковых команд

Что делает civStation
civStation — это система визуально-языковой модели (VLM), которая позволяет играть в Civilization VI с помощью команд на естественном языке. Вместо прямого управления мышью/клавиатурой пользователи формулируют высокоуровневые стратегические намерения, которые система преобразует в реальные игровые действия.
Архитектура и функциональность
Система использует трёхуровневую архитектуру:
- Стратегический уровень: Преобразует команды на естественном языке в структурированные цели, поддерживает долгосрочное направление и выполняет декомпозицию задач. Здесь обрабатываются команды типа «расширяться на восток», «сосредоточиться на экономике» или «стремиться к научной победе».
- Уровень действий: Использует экранную VLM для интерпретации состояния и выполняет действия мышью/клавиатурой без доступа к игровым API.
- Уровень HITL: Позволяет осуществлять вмешательство человека в реальном времени, возможности переопределения и контролируемую автономию.
Детали технической реализации
Одна стратегическая команда генерирует несколько последовательностей действий, требуя примерно 2–16 вызовов модели на задачу. Система использует исполнение на основе суб-агентов для ограниченных задач, таких как управление городом и контроль юнитов.
civStation исследует сдвиг интерфейсов от «действие → намерение» вместо традиционных подходов обучения с подкреплением, имитационного обучения или скриптовых методов. Это представляет собой переход от прямого манипулирования к делегированию и оркестровке агентов.
Ключевые проблемы и ограничения
Система сталкивается с несколькими техническими проблемами:
- Ошибки восприятия VLM
- Дрейф исполнения
- Отсутствие надёжных механизмов верификации
Многошаговое исполнение вносит компромиссы между задержкой и стоимостью API, со стратегиями отката, которые снижают производительность. Система не является полностью автономной — она поддерживает вмешательство человека в реальном времени для коррекции стратегии и контроля.
Более широкие последствия
Эта экспериментальная система решает вопросы контроля и верификации агентов в средах, ограниченных пользовательским интерфейсом. Фокус выходит за рамки игрового процесса, поднимая интерфейс «человек-система» до стратегического уровня, позволяя пользователям работать на более высоких уровнях абстракции, а не управлять отдельными действиями.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Открытый MCP-сервер подключает Claude к экономическим данным Центрального банка Бразилии
Сидней Биссоли создал bcb-br-mcp — сервер MCP с лицензией MIT, который предоставляет Клоду доступ к более чем 18 000 временных рядов из Центрального банка Бразилии (SGS/BCB). Сервер включает 8 инструментов, охватывающих данные по процентным ставкам, инфляции, обменным курсам, ВВП, занятости и кредитованию.

Топор: 12-мегабайтный CLI для узкоспециализированных LLM-агентов
Axe — это легковесный бинарный файл на Go, который запускает специализированные AI-агенты, описанные в TOML-файлах. Он обращается с агентами как с Unix-программами, поддерживая передачу данных через stdin, делегирование подзадач суб-агентам и интеграцию LLM от разных провайдеров.

TranscriptionSuite v1.1.2 добавляет модели WhisperX, NeMo и VibeVoice.
TranscriptionSuite v1.1.2 теперь предлагает три конвейера транскрипции: WhisperX с диаризацией PyAnnote, модели NeMo (Parakeet и Canary) с диаризацией PyAnnote и модели VibeVoice со встроенной диаризацией. Обновление включает менеджер моделей, параллельную обработку, управление горячими клавишами и конвейер записи 24 кГц для VibeVoice.

Разработчик создает сервер MCP для Power Automate с 108 инструментами и кроссплатформенной поддержкой
Разработчик создал сервер Power Automate MCP, расширив его с 12 до 108 инструментов, охватывающих операции CRUD в Dataverse через OData, управление SharePoint через Graph, управление версиями Power Apps, администрирование сред, а также кроссплатформенную поддержку для Windows, macOS и Linux.