DoomVLM:ドゥームデスマッチにおける視覚言語モデルをテストするためのオープンソースツール

DoomVLMの機能
DoomVLMは、ビジョン言語モデル(VLM)にDoomをプレイさせることでテストを行うJupyterノートブックです。ViZDoomからスクリーンショットを取得し、その上に番号付きの列グリッドを描画し、画像をOpenAI互換APIを介して任意のVLMに送信します。モデルにはshoot(column)とmove(direction)の2つのツールがあり、tool_choice: "required"が設定されています。これは純粋な視覚推論であり、強化学習やファインチューニングは使用されていません。
主な機能と更新点
- デスマッチモード: 2つのモードが追加されました。ベンチマーク—モデルが同一条件下でボットと順番に対戦し、公平な比較が可能です。アリーナ—マルチプロセッシングにより全員が同時にプレイし、推論が速いほど多くのターンを得ます。
- マルチエージェント対応: 最大4つのエージェントをサポートし、UIで各エージェントを完全に設定可能です:システムプロンプト、ツールの説明、サンプリングパラメータ、メッセージ履歴の長さ、グリッド列数など。異なるモデルサイズ(0.8B対4B対9B)や異なるモデル(Qwen対GPT-4o)を対戦させることができます。
- API互換性: あらゆるOpenAI互換API(LM Studio、Ollama、vLLM、OpenRouter、OpenAI、Claude)と連携可能です。設定でURLとモデルを切り替えるだけです。
- 記録とログ: GIF/MP4形式でのエピソード記録をサポートし、HP、弾薬、モデルの決定、遅延をオーバーレイ表示します。Jupyter内でライブスコアボードを表示。すべての結果は
workspace/フォルダ(ログ、動画、スクリーンショット)に保存されます。すべてを単一のZIPファイルとしてダウンロード可能です。
性能とセットアップ
性能: MacBook M1 Pro 16GBでは、0.8Bモデルが1ステップあたり約10秒かかります。RunPod L40Sでは0.5秒かかります。適切なアリーナゲームプレイにはGPUが必要です。
クイックスタート:
LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All
プロジェクト全体はMITライセンスの下で単一のJupyterノートブックとして提供されています。
現在の状況と観察結果
開発者は、Qwen 3.5があらゆるシナリオで一貫して勝利できる普遍的なプロンプトを見つけていません。一般的な観察として、シンプルで短いプロンプトがより良い結果をもたらし、詳細すぎる指示ではモデルが混乱することが分かっています。
GPT-4oやClaudeなどのフラッグシップモデルはまだテストされていませんが、インターフェースはそれらをサポートしています—GPUなしでローカルマシンから実行でき、APIキーを挿入するだけです。
ツールは現在完成度が高く、どのモデル/プロンプト/設定の組み合わせが最適かについての探求は始まったばかりです。開発者は、興味深いプロンプト、異なるモデルでの驚くべき結果、役立った設定などの発見を共有することを推奨しています。workspace/フォルダからゲームプレイ動画を投稿してください。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

オープンソース手法によるClaudeとのエージェントAIパートナーシップ
開発者が、Claudeとの持続的パートナーシップシステム構築に関する25,000語の論文を公開し、セッション間で共有メモリ、認知モニタリング、複数AI相談機能を使用するオープンソーステンプレートをリリースしました。

NetViews 2.3のご紹介:macOS向けの強力なネットワーク診断ツール
NetViews 2.3は、macOSにおけるネットワーク診断を向上させるため、ホスト検出、Wi-Fiインサイト、リアルタイム監視を合理化されたGUIで統合しています。

オープンクロースキル使用率トラッカー:実際に使用するスキルを監視
開発者がOpenClawスキルの基本的な使用状況分析を追跡するツールを作成しました。自然言語を通じて暗黙的に呼び出された際に、どのスキルが実際に使用されているかを監視する課題に対処しています。

ベンチマーク結果:AIエージェントにおけるGitHub CLIとMCPアプローチの比較
独立したベンチマークで、AIエージェントタスクにおけるGitHub CLI、MCP、MCP with Tool Search、MCP with Code Modeを比較しました。GitHub CLIが最もコスト効率が高く、MCPアプローチはコスト、レイテンシ、失敗モードにおいてトレードオフを示しました。