civStation: Open-Source VLM-Harness für Civ VI Sprachsteuerung

Was civStation macht

civStation ist ein Open-Source, steuerbarer Computer-Use-Stack und VLM-Harness, der speziell für Civilization VI entwickelt wurde. Anstatt das Spiel als ein Problem der UI-Automatisierung auf niedriger Ebene zu behandeln, konzentriert sich das Projekt auf die Steuerung auf Strategieebene. Sie können Eingaben in natürlicher Sprache wie "nach Osten expandieren", "diese Runde auf Wirtschaft konzentrieren" oder "auf einen Wissenschaftssieg abzielen" geben, und das System übersetzt diese Absicht in tatsächliche Aktionen im Spiel.

Kernarchitektur und Zyklus

Das System implementiert einen vollständigen Zyklus: Bildschirmbeobachtung → Strategieinterpretation → Aktionsplanung → Ausführung → menschliche Übersteuerung. Dies verschiebt die Schnittstelle von der direkten Ausführung hin zur Absichtsäußerung und kontrollierbaren Delegation. Das Ziel war nicht nur, einen Agenten Civilization VI spielen zu lassen, sondern einen Zyklus aufzubauen, in dem das Modell den Spielbildschirm beobachten, Strategien auf hoher Ebene interpretieren, Aktionen planen, diese über Maus und Tastatur ausführen und live durch Human-in-the-Loop (HitL) oder MCP unterbrochen oder angeleitet werden kann.

Aktuelle Funktionen und Fähigkeiten

Live-Desktop-Beobachtung
Echte UI-Interaktion auf dem Host-Computer
Laufzeitsteuerungsschnittstelle
Human-in-the-Loop-Steuerung
MCP/Skill-Erweiterbarkeit
Steuerung durch natürliche Sprache oder Spracheingabe

Forschungsfragen und Motivation

Der Ersteller untersucht mehrere Fragen: Wo sollte die Grenze zwischen Strategie und Ausführung liegen? Wie steuerbar kann ein Computer-Use-Agent sein, bevor der Zyklus zu langsam oder fehleranfällig wird? Macht dieser Ansatz nur für Spiele Sinn oder auch für breitere Desktop-Arbeitsabläufe?

Die Motivation ergibt sich aus der Beobachtung, dass die meisten Computer-Use-Demonstrationen sich auf "das Modell beim Klicken beobachten" konzentrieren, während civStation auf etwas näher an einer steuerbaren Laufzeitumgebung abzielt, in der Sie auf der Ebene der Strategie agieren können, anstatt mit roher UI-Interaktion. Eine weitere Motivation war zu testen, ob Sprache und natürliche Sprache, kombiniert mit Computer-Use, eine andere Interaktionsebene eröffnen könnten, auf der der Spieler eher wie ein Stratege agiert, der Anweisungen gibt, anstatt Aktionen direkt auszuführen.

Repository und Verfügbarkeit

Das Projekt ist verfügbar unter: https://github.com/NomaDamas/civStation.git

📖 Read the full source: r/LocalLLaMA

civStation: Open-Source VLM-Harness für die natürliche Sprachsteuerung von Civilization VI

Was civStation macht

Kernarchitektur und Zyklus

Aktuelle Funktionen und Fähigkeiten

Forschungsfragen und Motivation

Repository und Verfügbarkeit

👀 Siehe auch

Lokale-Cloud-Hybride-KI-Architektur: Praktische Muster inspiriert von r/LocalLLaMA

Logira: Echtzeitüberwachung von eBPF für KI-Agenten-Ausführungen

OpenClaw React Client Update fügt Modell pro Agent, CLI-Tool und Auto-Start hinzu

Mit mehreren parallelen Claude Code Sitzungen unter Verwendung von Git Worktrees