civStation : Harnais VLM Open-Source pour le Contrôle en Langage Naturel de Civilization VI

Ce que fait civStation
civStation est une pile informatique open-source et contrôlable, ainsi qu'un harnais VLM, conçu spécifiquement pour Civilization VI. Au lieu de traiter le jeu comme un problème d'automatisation d'interface utilisateur de bas niveau, le projet se concentre sur le contrôle au niveau stratégique. Vous pouvez donner des entrées en langage naturel comme "étendez-vous vers l'est", "concentrez-vous sur l'économie ce tour-ci", ou "visez une victoire scientifique", et le système traduit cette intention en actions réelles dans le jeu.
Architecture et boucle principales
Le système implémente une boucle complète : observation de l'écran → interprétation stratégique → planification d'actions → exécution → surcharge humaine. Cela déplace l'interface du niveau de l'exécution directe vers l'expression d'intention et la délégation contrôlable. L'objectif n'était pas seulement de créer un agent qui joue à Civ6, mais de construire une boucle où le modèle peut observer l'écran du jeu, interpréter une stratégie de haut niveau, planifier des actions, les exécuter via la souris et le clavier, et être interrompu ou guidé en direct par un humain dans la boucle (HitL) ou par MCP.
Fonctionnalités et capacités actuelles
- Observation en direct du bureau
- Interaction réelle avec l'interface utilisateur sur la machine hôte
- Interface de contrôle en temps d'exécution
- Contrôle humain dans la boucle
- Extensibilité MCP/compétences
- Contrôle par langage naturel ou vocal
Questions de recherche et motivation
Le créateur explore plusieurs questions : Où devrait se situer la frontière entre la stratégie et l'exécution ? Jusqu'où un agent informatique peut-il être contrôlable avant que la boucle ne devienne trop lente ou fragile ? Cette approche a-t-elle du sens uniquement pour les jeux, ou aussi pour des flux de travail bureautiques plus larges ?
La motivation vient de l'observation que la plupart des démonstrations d'utilisation informatique se concentrent sur "regarder le modèle cliquer", tandis que civStation vise quelque chose de plus proche d'un environnement d'exécution contrôlable où vous pouvez opérer au niveau de la stratégie plutôt que de l'interaction brute avec l'interface utilisateur. Une autre motivation était de tester si la voix et le langage naturel, combinés à l'utilisation informatique, pourraient ouvrir une couche d'interaction différente où le joueur se comporte davantage comme un stratège donnant des directives plutôt que d'exécuter directement des actions.
Dépôt et disponibilité
Le projet est disponible à l'adresse : https://github.com/NomaDamas/civStation.git
📖 Read the full source: r/LocalLLaMA
👀 See Also

Construire un langage de programmation avec Claude Code : l'expérience Cutlet
Ankur Sethi a construit un langage de programmation complet appelé Cutlet en utilisant Claude Code sur quatre semaines, l'IA générant chaque ligne de code pendant qu'il se concentrait sur les garde-fous et les tests. Le langage propose un typage dynamique, des opérations vectorisées et un REPL, fonctionnant sur macOS et Linux.

Système d'Étude à Contexte Ingénieurisé pour Claude Code Agissant en Tuteur Persistant
Un développeur a créé un système d'étude utilisant Claude Code qui suit les progrès entre les sessions, sonde la compréhension, travaille sur des exercices et s'adapte aux styles d'apprentissage. Le système utilise des fichiers markdown structurés pour façonner le comportement de l'agent et inclut des outils pour extraire des pages de manuels à partir de PDF.

AgentMeet : Un outil permettant aux agents IA de partager leur contexte via des salles basées sur navigateur.
AgentMeet est un outil qui permet aux agents d'IA comme Claude de partager du contexte entre eux en rejoignant des salles basées sur un navigateur à l'aide de simples requêtes POST. Il a été développé par un développeur et Claude pour Claude, est actuellement gratuit, et une version open source est prévue.

SimplePDF Copilot : Appel d'outil IA côté client pour le remplissage de formulaires PDF
SimplePDF Copilot utilise l'appel d'outils côté client pour permettre à un LLM de remplir des champs, d'en ajouter, de supprimer des pages, etc. dans des PDF — sans que le PDF ne quitte le navigateur.