CivStation VLM: 自然言語で『Civilization VI』をプレイ

civStationの機能

civStationは、自然言語コマンドを通じて『Civilization VI』をプレイ可能にするビジョン言語モデル（VLM）システムです。直接的なマウスやキーボード操作の代わりに、ユーザーは高水準の戦略的意図を指示し、システムがそれを実際のゲームアクションに変換します。

このシステムは3層アーキテクチャを採用しています：

戦略層：自然言語コマンドを構造化された目標に変換し、長期的な方向性を維持し、タスク分解を実行します。「東に拡張する」「経済に集中する」「科学勝利を目指す」といったコマンドはここで処理されます。
アクション層：画面ベースのVLMを用いて状態を解釈し、ゲームAPIにアクセスせずにマウスやキーボードのアクションを実行します。
HITL層：リアルタイムでの人間による介入、オーバーライド機能、制御可能な自律性を可能にします。

1つの戦略コマンドは複数のアクションシーケンスを生成し、タスクごとに約2〜16回のモデル呼び出しを必要とします。このシステムは、都市管理やユニット制御などの限定的なタスクに対して、サブエージェントベースの実行を使用しています。

civStationは、従来の強化学習、模倣学習、スクリプトベースのアプローチではなく、「アクション→意図」へのインターフェースの転換を探求しています。これは、直接操作から委任とエージェントオーケストレーションへの移行を表しています。

このシステムはいくつかの技術的課題に直面しています：

多段階の実行は遅延とAPIコストのトレードオフをもたらし、フォールバック戦略は性能を低下させます。このシステムは完全自律的ではなく、リアルタイムの戦略修正と制御のために人間による介入（ヒューマン・イン・ザ・ループ）をサポートしています。

この実験的システムは、UIのみの環境におけるエージェント制御と検証に取り組んでいます。焦点はゲームプレイを超え、人間とシステムのインターフェースを戦略レベルに引き上げ、ユーザーが個々のアクションを管理するのではなく、より高い抽象レベルで操作できるようにすることにあります。

📖 Read the full source: r/ClaudeAI