civStation: 自然言語コマンドで『Civilization VI』をプレイするVLMシステム

✍️ OpenClawRadar📅 公開日: April 13, 2026🔗 Source
civStation: 自然言語コマンドで『Civilization VI』をプレイするVLMシステム
Ad

civStationの機能

civStationは、自然言語コマンドを通じて『Civilization VI』をプレイ可能にするビジョン言語モデル(VLM)システムです。直接的なマウスやキーボード操作の代わりに、ユーザーは高水準の戦略的意図を指示し、システムがそれを実際のゲームアクションに変換します。

アーキテクチャと機能性

このシステムは3層アーキテクチャを採用しています:

  • 戦略層:自然言語コマンドを構造化された目標に変換し、長期的な方向性を維持し、タスク分解を実行します。「東に拡張する」「経済に集中する」「科学勝利を目指す」といったコマンドはここで処理されます。
  • アクション層:画面ベースのVLMを用いて状態を解釈し、ゲームAPIにアクセスせずにマウスやキーボードのアクションを実行します。
  • HITL層:リアルタイムでの人間による介入、オーバーライド機能、制御可能な自律性を可能にします。

技術的実装の詳細

1つの戦略コマンドは複数のアクションシーケンスを生成し、タスクごとに約2〜16回のモデル呼び出しを必要とします。このシステムは、都市管理やユニット制御などの限定的なタスクに対して、サブエージェントベースの実行を使用しています。

civStationは、従来の強化学習、模倣学習、スクリプトベースのアプローチではなく、「アクション→意図」へのインターフェースの転換を探求しています。これは、直接操作から委任とエージェントオーケストレーションへの移行を表しています。

主な課題と制限

このシステムはいくつかの技術的課題に直面しています:

  • VLMの知覚エラー
  • 実行のずれ
  • 信頼性のある検証メカニズムの欠如

多段階の実行は遅延とAPIコストのトレードオフをもたらし、フォールバック戦略は性能を低下させます。このシステムは完全自律的ではなく、リアルタイムの戦略修正と制御のために人間による介入(ヒューマン・イン・ザ・ループ)をサポートしています。

より広範な意義

この実験的システムは、UIのみの環境におけるエージェント制御と検証に取り組んでいます。焦点はゲームプレイを超え、人間とシステムのインターフェースを戦略レベルに引き上げ、ユーザーが個々のアクションを管理するのではなく、より高い抽象レベルで操作できるようにすることにあります。

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

rawq: AIエージェントの意味的コード検索のためのローカルCLIツール
Tools

rawq: AIエージェントの意味的コード検索のためのローカルCLIツール

rawqはオープンソースのCLIツールで、AIエージェントが関連するコードをセマンティック検索(33MBのローカルモデルをONNXランタイムで実行)とBM25語彙検索(tantivyを使用)によって見つけるのを支援します。テストでは、rawqを使用したAIエージェントは、盲目的なread/grepツールと比較して、トークン消費量が4分の1になり、タスク完了速度が2倍になりました。

OpenClawRadar
LumaBrowser:ElectronブラウザがAIエージェント向けにDOM解析をローカルLLMにオフロード
Tools

LumaBrowser:ElectronブラウザがAIエージェント向けにDOM解析をローカルLLMにオフロード

LumaBrowserは、OpenAI互換エンドポイントを介してDOM解析をローカルLLMにオフロードするElectronブラウザで、自律エージェントが生のHTMLを処理することを回避するのに役立ちます。Qwen 2.5バリアントなどのモデルを使用してUI要素を識別し、CSSセレクターを返します。

OpenClawRadar
印刷可能なClaudeコードチートシート(週次自動更新付き)
Tools

印刷可能なClaudeコードチートシート(週次自動更新付き)

開発者が、Claude Code用の印刷可能なチートシートを作成し、毎週自動更新されるようにしました。このシートは、ドキュメントやGitHubの機能を調査した後、Claude自体を使用して生成されました。

OpenClawRadar
自律的Claudeコードセッション用Discordブリッジ
Tools

自律的Claudeコードセッション用Discordブリッジ

bridge.jsスクリプト(約50行、discord.js v14)は、WebSocketとローカルファイルキューを使用して、DiscordとClaude Codeの間でリアルタイム双方向チャットを実現し、2分間のポーリングをマイクロ秒単位のファイル読み取りに置き換えます。27,000行を一晩かけて分析しテストされました。

OpenClawRadar