DoomVLM 오픈 소스: 비전 언어 모델 데스매치 테스트 도구

DoomVLM의 기능

DoomVLM은 비전 언어 모델(VLM)이 Doom을 플레이하도록 하여 테스트하는 Jupyter 노트북입니다. ViZDoom에서 스크린샷을 캡처하고, 위에 번호가 매겨진 열 그리드를 그린 다음, OpenAI 호환 API를 통해 모든 VLM에 이미지를 전송합니다. 모델에는 shoot(column)과 move(direction) 두 가지 도구가 있으며, tool_choice: "required"로 설정되어 있습니다. 이는 순수한 비전 추론으로, 강화 학습이나 미세 조정이 필요하지 않습니다.

주요 기능 및 업데이트

데스매치 모드: 두 가지 모드가 추가되었습니다. 벤치마크—모델이 동일한 조건에서 봇과 교대로 플레이하여 공정한 비교가 가능합니다. 아레나—멀티프로세싱을 통해 모든 모델이 동시에 플레이하며, 추론 속도가 빠른 모델이 더 많은 턴을 얻습니다.
다중 에이전트 지원: 최대 4개의 에이전트를 지원하며, 각각 UI에서 완전히 구성 가능합니다: 시스템 프롬프트, 도구 설명, 샘플링 매개변수, 메시지 기록 길이, 그리드 열 등. 서로 다른 모델 크기(0.8B vs 4B vs 9B)나 다른 모델(Qwen vs GPT-4o)을 대결시킬 수 있습니다.
API 호환성: 모든 OpenAI 호환 API와 작동합니다—LM Studio, Ollama, vLLM, OpenRouter, OpenAI, Claude. 설정에서 URL과 모델만 변경하면 됩니다.
녹화 및 로깅: HP, 탄약, 모델 결정 및 지연 시간을 보여주는 오버레이와 함께 GIF/MP4 형식으로 에피소드를 녹화합니다. Jupyter에서 실시간 스코어보드를 제공합니다. 모든 결과는 workspace/ 폴더에 저장됩니다(로그, 비디오, 스크린샷). 모든 것을 단일 ZIP 파일로 다운로드할 수 있습니다.

성능 및 설정

성능: MacBook M1 Pro 16GB에서는 0.8B 모델이 단계당 약 10초가 소요됩니다. RunPod L40S에서는 0.5초가 소요됩니다. 적절한 아레나 게임플레이를 위해서는 GPU가 필요합니다.

빠른 시작:

LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All

전체 프로젝트는 MIT 라이선스 하에 단일 Jupyter 노트북입니다.

현재 상태 및 관찰 결과

개발자는 Qwen 3.5가 모든 시나리오를 일관되게 이길 수 있는 보편적인 프롬프트를 아직 찾지 못했습니다. 일반적인 관찰 결과: 더 간단하고 짧은 프롬프트가 더 나은 결과를 제공하며, 모델은 지나치게 상세한 지시 사항에 혼란스러워합니다.

GPT-4o나 Claude와 같은 플래그십 모델은 아직 테스트되지 않았지만, 인터페이스는 이를 지원합니다—GPU 없이 로컬 머신에서 실행할 수 있으며, API 키만 연결하면 됩니다.

이 도구는 이제 완성되었으며, 어떤 모델/프롬프트/설정 조합이 가장 효과적인지에 대한 탐구는 이제 막 시작되었습니다. 개발자는 흥미로운 프롬프트, 다른 모델로 얻은 놀라운 결과, 도움이 된 설정 등 발견한 내용을 공유할 것을 권장합니다. workspace/ 폴더에서 게임플레이 비디오를 게시하세요.

📖 Read the full source: r/LocalLLaMA