DoomVLM Código Aberto: Teste Modelos de Linguagem Visual

O que o DoomVLM faz

O DoomVLM é um notebook Jupyter que testa modelos de linguagem visual (VLMs) fazendo-os jogar Doom. Ele tira capturas de tela do ViZDoom, desenha uma grade de colunas numeradas por cima e envia a imagem para qualquer VLM via uma API compatível com OpenAI. O modelo tem duas ferramentas: shoot(column) e move(direction), com tool_choice: "required". Isso é pura inferência visual—sem aprendizado por reforço ou ajuste fino.

Recursos e Atualizações Principais

Modos Deathmatch: Dois modos adicionados. Benchmark—os modelos jogam alternadamente contra bots sob condições idênticas para comparação justa. Arena—todos jogam simultaneamente via multiprocessamento; quem fizer inferência mais rápido ganha mais turnos.
Suporte Multiagente: Até 4 agentes, cada um totalmente configurável na interface: prompt do sistema, descrições de ferramentas, parâmetros de amostragem, tamanho do histórico de mensagens, colunas da grade, etc. Você pode colocar diferentes tamanhos de modelo uns contra os outros (0.8B vs 4B vs 9B) ou diferentes modelos (Qwen vs GPT-4o).
Compatibilidade com API: Funciona com qualquer API compatível com OpenAI—LM Studio, Ollama, vLLM, OpenRouter, OpenAI, Claude. Basta trocar a URL e o modelo nas configurações.
Gravação e Registro: Gravação de episódios em GIF/MP4 com sobreposições mostrando HP, munição, decisões do modelo e latência. Placar ao vivo no Jupyter. Todos os resultados salvos na pasta workspace/ (logs, vídeos, capturas de tela). Pode baixar tudo como um único ZIP.

Desempenho e Configuração

Desempenho: Em um MacBook M1 Pro 16GB, o modelo 0.8B leva ~10 segundos por passo. Em um RunPod L40S, leva 0,5 segundos. Você precisa de uma GPU para jogabilidade adequada na arena.

Início rápido:

LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Executar Tudo

Todo o projeto é um único notebook Jupyter sob licença MIT.

Estado Atual e Observações

O desenvolvedor não encontrou prompts universais que permitam ao Qwen 3.5 vencer consistentemente todos os cenários. Observação geral: prompts mais simples e curtos produzem melhores resultados; os modelos travam com instruções excessivamente detalhadas.

Modelos principais como GPT-4o ou Claude ainda não foram testados, embora a interface os suporte—você pode executá-los da sua máquina local sem GPU, basta inserir a chave da API.

A ferramenta agora está polida, e a exploração de quais combinações de modelo/prompt/configuração funcionam melhor está apenas começando. O desenvolvedor incentiva o compartilhamento de descobertas: prompts interessantes, resultados surpreendentes com diferentes modelos, configurações que ajudaram. Poste vídeos de jogabilidade da pasta workspace/.

📖 Leia a fonte completa: r/LocalLLaMA

DoomVLM: Ferramenta de Código Aberto para Testar Modelos de Linguagem Visual em Partidas de Morte do Doom

O que o DoomVLM faz

Recursos e Atualizações Principais

Desempenho e Configuração

Estado Atual e Observações

👀 See Also

Claude Code prompts de código aberto, engenharia reversa usando Claude

Usando um LLM Local como Subagente de Código do Claude para Reduzir o Uso de Contexto

O Relvy melhora a precisão da análise de causa raiz do Claude em 12 pontos percentuais no benchmark OpenRCA.

Claude Code v2.1.59 adiciona memória automática, comando de cópia e melhorias no shell.