オープンソースDoomVLM：VLMでドゥーム対戦テスト

DoomVLMの機能

DoomVLMは、ビジョン言語モデル（VLM）にDoomをプレイさせることでテストを行うJupyterノートブックです。ViZDoomからスクリーンショットを取得し、その上に番号付きの列グリッドを描画し、画像をOpenAI互換APIを介して任意のVLMに送信します。モデルにはshoot(column)とmove(direction)の2つのツールがあり、tool_choice: "required"が設定されています。これは純粋な視覚推論であり、強化学習やファインチューニングは使用されていません。

主な機能と更新点

デスマッチモード: 2つのモードが追加されました。ベンチマーク—モデルが同一条件下でボットと順番に対戦し、公平な比較が可能です。アリーナ—マルチプロセッシングにより全員が同時にプレイし、推論が速いほど多くのターンを得ます。
マルチエージェント対応: 最大4つのエージェントをサポートし、UIで各エージェントを完全に設定可能です：システムプロンプト、ツールの説明、サンプリングパラメータ、メッセージ履歴の長さ、グリッド列数など。異なるモデルサイズ（0.8B対4B対9B）や異なるモデル（Qwen対GPT-4o）を対戦させることができます。
API互換性: あらゆるOpenAI互換API（LM Studio、Ollama、vLLM、OpenRouter、OpenAI、Claude）と連携可能です。設定でURLとモデルを切り替えるだけです。
記録とログ: GIF/MP4形式でのエピソード記録をサポートし、HP、弾薬、モデルの決定、遅延をオーバーレイ表示します。Jupyter内でライブスコアボードを表示。すべての結果はworkspace/フォルダ（ログ、動画、スクリーンショット）に保存されます。すべてを単一のZIPファイルとしてダウンロード可能です。

性能とセットアップ

性能: MacBook M1 Pro 16GBでは、0.8Bモデルが1ステップあたり約10秒かかります。RunPod L40Sでは0.5秒かかります。適切なアリーナゲームプレイにはGPUが必要です。

クイックスタート:

LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All

プロジェクト全体はMITライセンスの下で単一のJupyterノートブックとして提供されています。

現在の状況と観察結果

開発者は、Qwen 3.5があらゆるシナリオで一貫して勝利できる普遍的なプロンプトを見つけていません。一般的な観察として、シンプルで短いプロンプトがより良い結果をもたらし、詳細すぎる指示ではモデルが混乱することが分かっています。

GPT-4oやClaudeなどのフラッグシップモデルはまだテストされていませんが、インターフェースはそれらをサポートしています—GPUなしでローカルマシンから実行でき、APIキーを挿入するだけです。

ツールは現在完成度が高く、どのモデル/プロンプト/設定の組み合わせが最適かについての探求は始まったばかりです。開発者は、興味深いプロンプト、異なるモデルでの驚くべき結果、役立った設定などの発見を共有することを推奨しています。workspace/フォルダからゲームプレイ動画を投稿してください。

📖 完全なソースを読む: r/LocalLLaMA

DoomVLM：ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール

DoomVLMの機能

主な機能と更新点

性能とセットアップ

現在の状況と観察結果

👀 See Also

Qwen 3.5 チャットテンプレートリリース：エージェントワークフローのための21件のバグ修正を実施

Claude Code VS Code拡張機能のセッションタイトル破損の根本原因を特定

Zot Chromeオペレーター：サイドパネルからターミナルAIエージェントにブラウザ操作を任せる

ProofShot: UIコードをブラウザ記録で検証するAIエージェント向けCLI