DoomVLM: Ferramenta de Código Aberto para Testar Modelos de Linguagem Visual em Partidas de Morte do Doom

O que o DoomVLM faz
O DoomVLM é um notebook Jupyter que testa modelos de linguagem visual (VLMs) fazendo-os jogar Doom. Ele tira capturas de tela do ViZDoom, desenha uma grade de colunas numeradas por cima e envia a imagem para qualquer VLM via uma API compatível com OpenAI. O modelo tem duas ferramentas: shoot(column) e move(direction), com tool_choice: "required". Isso é pura inferência visual—sem aprendizado por reforço ou ajuste fino.
Recursos e Atualizações Principais
- Modos Deathmatch: Dois modos adicionados. Benchmark—os modelos jogam alternadamente contra bots sob condições idênticas para comparação justa. Arena—todos jogam simultaneamente via multiprocessamento; quem fizer inferência mais rápido ganha mais turnos.
- Suporte Multiagente: Até 4 agentes, cada um totalmente configurável na interface: prompt do sistema, descrições de ferramentas, parâmetros de amostragem, tamanho do histórico de mensagens, colunas da grade, etc. Você pode colocar diferentes tamanhos de modelo uns contra os outros (0.8B vs 4B vs 9B) ou diferentes modelos (Qwen vs GPT-4o).
- Compatibilidade com API: Funciona com qualquer API compatível com OpenAI—LM Studio, Ollama, vLLM, OpenRouter, OpenAI, Claude. Basta trocar a URL e o modelo nas configurações.
- Gravação e Registro: Gravação de episódios em GIF/MP4 com sobreposições mostrando HP, munição, decisões do modelo e latência. Placar ao vivo no Jupyter. Todos os resultados salvos na pasta
workspace/(logs, vídeos, capturas de tela). Pode baixar tudo como um único ZIP.
Desempenho e Configuração
Desempenho: Em um MacBook M1 Pro 16GB, o modelo 0.8B leva ~10 segundos por passo. Em um RunPod L40S, leva 0,5 segundos. Você precisa de uma GPU para jogabilidade adequada na arena.
Início rápido:
LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Executar Tudo
Todo o projeto é um único notebook Jupyter sob licença MIT.
Estado Atual e Observações
O desenvolvedor não encontrou prompts universais que permitam ao Qwen 3.5 vencer consistentemente todos os cenários. Observação geral: prompts mais simples e curtos produzem melhores resultados; os modelos travam com instruções excessivamente detalhadas.
Modelos principais como GPT-4o ou Claude ainda não foram testados, embora a interface os suporte—você pode executá-los da sua máquina local sem GPU, basta inserir a chave da API.
A ferramenta agora está polida, e a exploração de quais combinações de modelo/prompt/configuração funcionam melhor está apenas começando. O desenvolvedor incentiva o compartilhamento de descobertas: prompts interessantes, resultados surpreendentes com diferentes modelos, configurações que ajudaram. Poste vídeos de jogabilidade da pasta workspace/.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

htmLLM-124M v2 Lançado: Modelo Especializado de Autocompletar HTML/Bootstrap
A LH-Tech-AI lançou o htmLLM-124M v2, um modelo de 124 milhões de parâmetros especializado em autocompletar HTML/Bootstrap que alcança 0.91 de perda de validação e treina em ~8 horas em uma única GPU T4.

Relay permite que sessões do Claude Code se comuniquem sem alternar entre janelas
Um plugin chamado Relay usa a capacidade de canais do Claude Code para permitir que sessões paralelas se comuniquem diretamente, eliminando a necessidade de copiar e colar manualmente o contexto entre repositórios de backend e frontend.

OutClaw: Instalador e Gerenciador GUI para OpenClaw no Docker
OutClaw é um aplicativo gratuito e de código aberto que instala e gerencia instâncias do OpenClaw dentro de contêineres Docker. Ele fornece uma interface gráfica passo a passo para configuração, conexão com provedores de IA e canais de chat, sem necessidade de usar a linha de comando.

Desenvolvedor cria plugin MCP para WordPress com 28 habilidades de leitura/escrita
Um desenvolvedor criou um plugin WordPress que registra 28 habilidades MCP através da API de Habilidades do WordPress, permitindo acesso total de leitura/escrita para agentes de IA de programação. O plugin gerencia conteúdo, auditoria de qualidade e recursos de segurança, convertendo automaticamente entre Markdown e blocos Gutenberg.