civStation: Открытая платформа VLM для управления игрой Civilization VI с помощью естественного языка

Что делает civStation
civStation — это открытый, управляемый стек компьютерного использования и оболочка VLM, созданная специально для Civilization VI. Вместо того чтобы рассматривать игру как проблему низкоуровневой автоматизации интерфейса, проект фокусируется на управлении на уровне стратегии. Вы можете давать команды на естественном языке, такие как «расширяться на восток», «сосредоточиться на экономике в этот ход» или «стремиться к научной победе», и система преобразует это намерение в реальные внутриигровые действия.
Основная архитектура и цикл
Система реализует полный цикл: наблюдение экрана → интерпретация стратегии → планирование действий → выполнение → вмешательство человека. Это смещает интерфейс вверх — от прямого выполнения к выражению намерения и управляемому делегированию. Цель состояла не просто в том, чтобы создать агента, играющего в Civ6, а в построении цикла, в котором модель может наблюдать за игровым экраном, интерпретировать высокоуровневую стратегию, планировать действия, выполнять их с помощью мыши и клавиатуры, а также быть прерванной или направляемой в реальном времени через человеческое вмешательство (HitL) или MCP.
Текущие функции и возможности
- Наблюдение за рабочим столом в реальном времени
- Реальное взаимодействие с интерфейсом на основном компьютере
- Интерфейс управления во время выполнения
- Управление с участием человека
- Расширяемость через MCP/навыки
- Управление с помощью естественного языка или голоса
Исследовательские вопросы и мотивация
Создатель исследует несколько вопросов: Где должна проходить граница между стратегией и выполнением? Насколько управляемым может быть агент компьютерного использования, прежде чем цикл станет слишком медленным или ненадёжным? Имеет ли этот подход смысл только для игр или также для более широких рабочих процессов на рабочем столе?
Мотивация проистекает из наблюдения, что большинство демонстраций компьютерного использования сосредоточены на «смотрите, как модель кликает», в то время как civStation стремится к чему-то более близкому к управляемой среде выполнения, где вы можете работать на уровне стратегии, а не на уровне сырого взаимодействия с интерфейсом. Другой мотивацией было проверить, могут ли голос и естественный язык в сочетании с компьютерным использованием открыть другой слой взаимодействия, где игрок ведёт себя скорее как стратег, отдающий указания, а не непосредственно выполняющий действия.
Репозиторий и доступность
Проект доступен по адресу: https://github.com/NomaDamas/civStation.git
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Microsoft BitNet: 1-битная инфраструктура вывода LLM для CPU и GPU
Microsoft выпустила BitNet — фреймворк для вывода 1-битных больших языковых моделей, который обеспечивает ускорение от 1,37x до 6,17x на CPU и снижает энергопотребление на 55,4% до 82,2%. Он может запускать модель с 100 миллиардами параметров на одном CPU со скоростью 5-7 токенов в секунду.

Локальная система памяти для инструментов ИИ-кодирования извлекает более 2600 фактов из журналов переписки.
Разработчик создал локальный слой памяти, который загружает журналы разговоров из Claude Code, Factory.ai и Codex CLI, извлекает структурированные факты с помощью локальной LLM и автоматически добавляет контекст в новые сессии. После нескольких месяцев использования система проиндексировала более 13 000 сообщений и извлекла более 2 600 фактов.

CipherClaw: Использование защитной персоны для аудита кода с помощью Claude
Разработчик использовал CipherClaw, персонажа CLAUDE.md по имени TALON, чтобы заставить Claude Code мыслить как архитектор безопасности. Запуск на приложении Next.js выявил 17 проблем безопасности, включая критические уязвимости, такие как неаутентифицированные конечные точки, возвращающие данные администратора, и хардкодированные токены аутентификации.

FixAI: Браузерная игра, которая учит потребительскому праву через борьбу с корпоративными ИИ-ботами
FixAI — это браузерная игра с 36 уровнями, в которой игроки спорят с корпоративными или государственными системами ИИ, используя реальные законы о защите прав потребителей. Созданная на Vanilla JS, Node/Express и Claude Haiku, она включает систему оценки сопротивления и образовательные пояснения к юридическим аргументам.