DoomVLM : Outil Open Source pour Tester les Modèles de Vision et Langage dans les Matchs à Mort de Doom

Ce que fait DoomVLM
DoomVLM est un notebook Jupyter qui teste des modèles de langage visuel (VLM) en les faisant jouer à Doom. Il capture des captures d'écran depuis ViZDoom, dessine une grille de colonnes numérotées par-dessus, et envoie l'image à n'importe quel VLM via une API compatible OpenAI. Le modèle dispose de deux outils : shoot(column) et move(direction), avec tool_choice: "required". Il s'agit d'une inférence purement visuelle — pas d'apprentissage par renforcement ni de fine-tuning.
Fonctionnalités clés et mises à jour
- Modes Deathmatch : Deux modes ajoutés. Benchmark — les modèles jouent à tour de rôle contre des bots dans des conditions identiques pour une comparaison équitable. Arena — tout le monde joue simultanément via du multiprocessing ; celui qui infère plus vite obtient plus de tours.
- Support multi-agents : Jusqu'à 4 agents, chacun entièrement configurable dans l'interface : prompt système, descriptions d'outils, paramètres d'échantillonnage, longueur de l'historique des messages, colonnes de la grille, etc. Vous pouvez opposer différentes tailles de modèles (0,8B contre 4B contre 9B) ou différents modèles (Qwen contre GPT-4o).
- Compatibilité API : Fonctionne avec n'importe quelle API compatible OpenAI — LM Studio, Ollama, vLLM, OpenRouter, OpenAI, Claude. Il suffit de changer l'URL et le modèle dans les paramètres.
- Enregistrement et journalisation : Enregistrement des épisodes en GIF/MP4 avec des superpositions affichant les PV, les munitions, les décisions du modèle et la latence. Tableau des scores en direct dans Jupyter. Tous les résultats sont sauvegardés dans le dossier
workspace/(journaux, vidéos, captures d'écran). Possibilité de tout télécharger en un seul ZIP.
Performance et configuration
Performance : Sur un MacBook M1 Pro 16 Go, le modèle 0,8B prend ~10 secondes par étape. Sur un RunPod L40S, il prend 0,5 seconde. Vous avez besoin d'un GPU pour un gameplay arena correct.
Démarrage rapide :
LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All
L'ensemble du projet est un unique notebook Jupyter sous licence MIT.
État actuel et observations
Le développeur n'a pas trouvé de prompts universels permettant à Qwen 3.5 de battre systématiquement chaque scénario. Observation générale : des prompts plus simples et plus courts donnent de meilleurs résultats ; les modèles s'étouffent avec des instructions trop détaillées.
Les modèles phares comme GPT-4o ou Claude n'ont pas encore été testés, bien que l'interface les prenne en charge — vous pouvez les exécuter depuis votre machine locale sans GPU, il suffit d'insérer la clé API.
L'outil est désormais abouti, et l'exploration des combinaisons modèle/prompt/paramètre qui fonctionnent le mieux ne fait que commencer. Le développeur encourage le partage des découvertes : prompts intéressants, résultats surprenants avec différents modèles, paramètres qui ont aidé. Publiez des vidéos de gameplay depuis le dossier workspace/.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Réduction de la latence des agents multi-modaux en omettant l'historique des captures d'écran
Un développeur a constaté que l'omission des captures d'écran précédentes des requêtes d'agents multimodaux et le remplacement des données d'image en base64 par des chaînes "[image omise]" réduisent considérablement la latence tout en maintenant les performances. L'expérience a été menée avec Claude et documentée sur GitHub.

Agents de codage parallèles avec tmux et spécifications en Markdown
Manuel Schipper décrit un système pour exécuter 4 à 8 agents de codage en parallèle en utilisant tmux, des fichiers Markdown, des alias bash et six commandes slash. La configuration utilise des spécifications Feature Design (FD) en Markdown suivies à travers un cycle de vie en 8 étapes.

Solitaire : Infrastructure d'identité open source pour les agents d'IA
Solitaire est une infrastructure d'identité open source pour les agents IA qui se concentre sur l'amélioration de la façon dont les agents travaillent avec les utilisateurs au fil du temps, et pas seulement sur la mémorisation. Il est local-first, indépendant des modèles et disponible via pip install solitaire-ai.

Kstack : Compétence Pack pour Claude Code afin de surveiller et dépanner Kubernetes
Kstack est un pack de compétences open source qui ajoute des commandes slash comme /investigate, /audit-security et /cluster-status à Claude Code (et à d'autres agents IA) pour surveiller et dépanner des clusters K8s. Il utilise kubectl, Kubetail, Trivy et Pluto en arrière-plan.