civStation: Open-Source VLM-Harness für die natürliche Sprachsteuerung von Civilization VI

Was civStation macht
civStation ist ein Open-Source, steuerbarer Computer-Use-Stack und VLM-Harness, der speziell für Civilization VI entwickelt wurde. Anstatt das Spiel als ein Problem der UI-Automatisierung auf niedriger Ebene zu behandeln, konzentriert sich das Projekt auf die Steuerung auf Strategieebene. Sie können Eingaben in natürlicher Sprache wie "nach Osten expandieren", "diese Runde auf Wirtschaft konzentrieren" oder "auf einen Wissenschaftssieg abzielen" geben, und das System übersetzt diese Absicht in tatsächliche Aktionen im Spiel.
Kernarchitektur und Zyklus
Das System implementiert einen vollständigen Zyklus: Bildschirmbeobachtung → Strategieinterpretation → Aktionsplanung → Ausführung → menschliche Übersteuerung. Dies verschiebt die Schnittstelle von der direkten Ausführung hin zur Absichtsäußerung und kontrollierbaren Delegation. Das Ziel war nicht nur, einen Agenten Civilization VI spielen zu lassen, sondern einen Zyklus aufzubauen, in dem das Modell den Spielbildschirm beobachten, Strategien auf hoher Ebene interpretieren, Aktionen planen, diese über Maus und Tastatur ausführen und live durch Human-in-the-Loop (HitL) oder MCP unterbrochen oder angeleitet werden kann.
Aktuelle Funktionen und Fähigkeiten
- Live-Desktop-Beobachtung
- Echte UI-Interaktion auf dem Host-Computer
- Laufzeitsteuerungsschnittstelle
- Human-in-the-Loop-Steuerung
- MCP/Skill-Erweiterbarkeit
- Steuerung durch natürliche Sprache oder Spracheingabe
Forschungsfragen und Motivation
Der Ersteller untersucht mehrere Fragen: Wo sollte die Grenze zwischen Strategie und Ausführung liegen? Wie steuerbar kann ein Computer-Use-Agent sein, bevor der Zyklus zu langsam oder fehleranfällig wird? Macht dieser Ansatz nur für Spiele Sinn oder auch für breitere Desktop-Arbeitsabläufe?
Die Motivation ergibt sich aus der Beobachtung, dass die meisten Computer-Use-Demonstrationen sich auf "das Modell beim Klicken beobachten" konzentrieren, während civStation auf etwas näher an einer steuerbaren Laufzeitumgebung abzielt, in der Sie auf der Ebene der Strategie agieren können, anstatt mit roher UI-Interaktion. Eine weitere Motivation war zu testen, ob Sprache und natürliche Sprache, kombiniert mit Computer-Use, eine andere Interaktionsebene eröffnen könnten, auf der der Spieler eher wie ein Stratege agiert, der Anweisungen gibt, anstatt Aktionen direkt auszuführen.
Repository und Verfügbarkeit
Das Projekt ist verfügbar unter: https://github.com/NomaDamas/civStation.git
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

WhatsApp KI-Assistent entwickelt mit Claude Code als OpenClaw-Alternative
Ein Entwickler hat einen WhatsApp-KI-Assistenten mit Claude Code als agentisches Gehirn erstellt, mit einem lokalen Relay-Server für WhatsApp-Webhooks und einem MCP-Server als Brücke. Das Projekt umfasst Arcade für bereichsspezifische Authentifizierung zu Google Kalender, Gmail und Slack.

RTX 5060 Ti 16GB Lokale LLM-Benchmarks: 30B-Modelle liegen beim Programmieren immer noch vorn
Benchmarks auf einer RTX 5060 Ti 16GB zeigen, dass Unsloth Qwen3-Coder-30B UD-Q3_K_XL unter Ubuntu 76,3 Tok/s bei einer Qualitätsbewertung von 8,14 erreicht, was es zum empfohlenen Standard-Codemodell macht. Das Unsloth Qwen3.5-35B UD-Q2_K_XL erreicht 80,1 Tok/s, jedoch mit niedrigeren Qualitätsbewertungen.

Alternative KI-Codierungseinrichtung nach der Preiserhöhung von Claude
Ein Entwickler teilt seine aktuelle KI-Codierungseinrichtung mit GPT 5.4 als primärem Modell, Codex als Backup inklusive im ChatGPT-Abonnement und Minimax 2.7 als zusätzliche Absicherung mit Coding-Plan-Preisen.

Claude Sleuth: Ein 56-Aufgaben-Untersuchungs-Workflow für Claude AI
Claude Sleuth ist ein strukturierter Untersuchungsablauf für Claude AI mit 6 Phasen und 56 Aufgaben, der über Cloudflare D1 einen persistenten Zustandsspeicher bietet und standardisierte Ausgabekonventionen wie ISO-8601-Zeitstempel, POLE-Entitätenaufzeichnungen und ICD-203-Wahrscheinlichkeitssprache umfasst.