DoomVLM Open Source: Tester Modèles Vision-Langage dans Doom

Ce que fait DoomVLM

DoomVLM est un notebook Jupyter qui teste des modèles de langage visuel (VLM) en les faisant jouer à Doom. Il capture des captures d'écran depuis ViZDoom, dessine une grille de colonnes numérotées par-dessus, et envoie l'image à n'importe quel VLM via une API compatible OpenAI. Le modèle dispose de deux outils : shoot(column) et move(direction), avec tool_choice: "required". Il s'agit d'une inférence purement visuelle — pas d'apprentissage par renforcement ni de fine-tuning.

Fonctionnalités clés et mises à jour

Modes Deathmatch : Deux modes ajoutés. Benchmark — les modèles jouent à tour de rôle contre des bots dans des conditions identiques pour une comparaison équitable. Arena — tout le monde joue simultanément via du multiprocessing ; celui qui infère plus vite obtient plus de tours.
Support multi-agents : Jusqu'à 4 agents, chacun entièrement configurable dans l'interface : prompt système, descriptions d'outils, paramètres d'échantillonnage, longueur de l'historique des messages, colonnes de la grille, etc. Vous pouvez opposer différentes tailles de modèles (0,8B contre 4B contre 9B) ou différents modèles (Qwen contre GPT-4o).
Compatibilité API : Fonctionne avec n'importe quelle API compatible OpenAI — LM Studio, Ollama, vLLM, OpenRouter, OpenAI, Claude. Il suffit de changer l'URL et le modèle dans les paramètres.
Enregistrement et journalisation : Enregistrement des épisodes en GIF/MP4 avec des superpositions affichant les PV, les munitions, les décisions du modèle et la latence. Tableau des scores en direct dans Jupyter. Tous les résultats sont sauvegardés dans le dossier workspace/ (journaux, vidéos, captures d'écran). Possibilité de tout télécharger en un seul ZIP.

Performance et configuration

Performance : Sur un MacBook M1 Pro 16 Go, le modèle 0,8B prend ~10 secondes par étape. Sur un RunPod L40S, il prend 0,5 seconde. Vous avez besoin d'un GPU pour un gameplay arena correct.

Démarrage rapide :

LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All

L'ensemble du projet est un unique notebook Jupyter sous licence MIT.

État actuel et observations

Le développeur n'a pas trouvé de prompts universels permettant à Qwen 3.5 de battre systématiquement chaque scénario. Observation générale : des prompts plus simples et plus courts donnent de meilleurs résultats ; les modèles s'étouffent avec des instructions trop détaillées.

Les modèles phares comme GPT-4o ou Claude n'ont pas encore été testés, bien que l'interface les prenne en charge — vous pouvez les exécuter depuis votre machine locale sans GPU, il suffit d'insérer la clé API.

L'outil est désormais abouti, et l'exploration des combinaisons modèle/prompt/paramètre qui fonctionnent le mieux ne fait que commencer. Le développeur encourage le partage des découvertes : prompts intéressants, résultats surprenants avec différents modèles, paramètres qui ont aidé. Publiez des vidéos de gameplay depuis le dossier workspace/.

📖 Read the full source: r/LocalLLaMA

DoomVLM : Outil Open Source pour Tester les Modèles de Vision et Langage dans les Matchs à Mort de Doom

Ce que fait DoomVLM

Fonctionnalités clés et mises à jour

Performance et configuration

État actuel et observations

👀 See Also

Les 5 plus grandes collections SKILL.md de Claude Code suivies sur GitHub — Tableau triable avec auto-actualisation

Collaborer : Une compétence Claude Code pour la rédaction structurée et asynchrone de documents avec transferts multi-agents

Brand-Docs : Outil Open-Source pour Claude afin de Générer des DOCX, PPTX, XLSX à partir de Modèles

Fiche de Code Claude Imprimable avec Mises à Jour Automatiques Hebdomadaires