DoomVLM: 둠 데스매치에서 비전 언어 모델 테스트를 위한 오픈 소스 도구

DoomVLM의 기능
DoomVLM은 비전 언어 모델(VLM)이 Doom을 플레이하도록 하여 테스트하는 Jupyter 노트북입니다. ViZDoom에서 스크린샷을 캡처하고, 위에 번호가 매겨진 열 그리드를 그린 다음, OpenAI 호환 API를 통해 모든 VLM에 이미지를 전송합니다. 모델에는 shoot(column)과 move(direction) 두 가지 도구가 있으며, tool_choice: "required"로 설정되어 있습니다. 이는 순수한 비전 추론으로, 강화 학습이나 미세 조정이 필요하지 않습니다.
주요 기능 및 업데이트
- 데스매치 모드: 두 가지 모드가 추가되었습니다. 벤치마크—모델이 동일한 조건에서 봇과 교대로 플레이하여 공정한 비교가 가능합니다. 아레나—멀티프로세싱을 통해 모든 모델이 동시에 플레이하며, 추론 속도가 빠른 모델이 더 많은 턴을 얻습니다.
- 다중 에이전트 지원: 최대 4개의 에이전트를 지원하며, 각각 UI에서 완전히 구성 가능합니다: 시스템 프롬프트, 도구 설명, 샘플링 매개변수, 메시지 기록 길이, 그리드 열 등. 서로 다른 모델 크기(0.8B vs 4B vs 9B)나 다른 모델(Qwen vs GPT-4o)을 대결시킬 수 있습니다.
- API 호환성: 모든 OpenAI 호환 API와 작동합니다—LM Studio, Ollama, vLLM, OpenRouter, OpenAI, Claude. 설정에서 URL과 모델만 변경하면 됩니다.
- 녹화 및 로깅: HP, 탄약, 모델 결정 및 지연 시간을 보여주는 오버레이와 함께 GIF/MP4 형식으로 에피소드를 녹화합니다. Jupyter에서 실시간 스코어보드를 제공합니다. 모든 결과는
workspace/폴더에 저장됩니다(로그, 비디오, 스크린샷). 모든 것을 단일 ZIP 파일로 다운로드할 수 있습니다.
성능 및 설정
성능: MacBook M1 Pro 16GB에서는 0.8B 모델이 단계당 약 10초가 소요됩니다. RunPod L40S에서는 0.5초가 소요됩니다. 적절한 아레나 게임플레이를 위해서는 GPU가 필요합니다.
빠른 시작:
LM Studio → lms get qwen-3.5-0.8b → lms server start → pip install -r requirements.txt → jupyter lab doom_vlm.ipynb → Run All
전체 프로젝트는 MIT 라이선스 하에 단일 Jupyter 노트북입니다.
현재 상태 및 관찰 결과
개발자는 Qwen 3.5가 모든 시나리오를 일관되게 이길 수 있는 보편적인 프롬프트를 아직 찾지 못했습니다. 일반적인 관찰 결과: 더 간단하고 짧은 프롬프트가 더 나은 결과를 제공하며, 모델은 지나치게 상세한 지시 사항에 혼란스러워합니다.
GPT-4o나 Claude와 같은 플래그십 모델은 아직 테스트되지 않았지만, 인터페이스는 이를 지원합니다—GPU 없이 로컬 머신에서 실행할 수 있으며, API 키만 연결하면 됩니다.
이 도구는 이제 완성되었으며, 어떤 모델/프롬프트/설정 조합이 가장 효과적인지에 대한 탐구는 이제 막 시작되었습니다. 개발자는 흥미로운 프롬프트, 다른 모델로 얻은 놀라운 결과, 도움이 된 설정 등 발견한 내용을 공유할 것을 권장합니다. workspace/ 폴더에서 게임플레이 비디오를 게시하세요.
📖 Read the full source: r/LocalLLaMA
👀 See Also

260개 이상의 AI 에이전트 및 도구 모음집 (오픈소스 및 셀프 호스팅 중심)
포괄적인 GitHub 저장소는 260개 이상의 AI 에이전트와 프레임워크를 나열하며, Ollama, OpenClaw, DeerFlow를 포함한 오픈소스, 자체 호스팅, 로컬 우선 옵션을 강조합니다.

클로드 코드 할당량을 위한 윈도우 시스템 트레이 모니터
Windows 시스템 트레이 애플리케이션으로 Claude Code 사용량을 색상으로 구분된 아이콘으로 모니터링하며, Anthropic의 OAuth API를 통해 5분마다 할당량 데이터를 자동으로 새로 고치고, 시간별, 일별, 주별, 월별 사용 패턴을 보여주는 상세한 대시보드를 제공합니다.

CK 검색: MCP 서버 통합을 갖춘 로컬 의미론적 검색 도구
CK Search는 클라우드 의존성 없이 텍스트 디렉토리를 인덱싱하는 로컬 시맨틱 검색 도구로, 내장 MCP 서버를 포함하고 있습니다. 이 도구는 MCP를 통해 AI 에이전트가 사용할 수 있으며, 소스는 grep과 비교한 설정, 장점, 한계를 다루는 실용적인 가이드를 제공합니다.

SourceBridge: 로컬 LLM을 사용한 코드베이스 분석을 위한 오픈소스 도구
SourceBridge는 Git 저장소를 심볼 그래프로 색인화하고 로컬 LLM을 사용하여 코드베이스 요약, 아키텍처 둘러보기 및 학습 자료를 생성하는 오픈소스 도구입니다. OpenAI 호환 API를 통해 Ollama, llama.cpp, vLLM, LM Studio, SGLang 등 여러 로컬 백엔드를 지원합니다.