로컬 vLLM으로 NemoClaw 실행: 설정 및 에이전트 엔지니어링 관찰

vLLM을 이용한 로컬 NemoClaw 설정

개발자가 WSL2에서 vLLM을 사용하여 로컬 Nemotron 9B v2 모델과 함께 NVIDIA의 샌드박스 AI 에이전트 플랫폼인 NemoClaw을 실행한 경험을 공유했습니다. 이 설정은 jieunl24의 NemoClaw 포크를 기반으로 합니다.

주요 기술 세부사항

추론 라우팅: NemoClaw의 추론 라우팅은 깔끔한 경로를 따릅니다: inference.local → gateway → vLLM. 그러나 초기 온보딩 버그로 인해 3계층 네트워크 해킹이 필요했으며, 이는 이후 PR #412를 통해 수정되었습니다.

파서 호환성: 내장된 vLLM 파서(qwen3_coder, nemotron_v3)는 Nemotron v2 모델과 호환되지 않습니다. 대신 NeMo 저장소의 NVIDIA 공식 플러그인 파서를 사용해야 합니다.

에이전트 엔지니어링 격차: 에이전트 플랫폼으로서의 OpenClaw는 견고한 인프라를 제공하지만 최소한의 프롬프트 엔지니어링만 포함하고 있습니다. '모델이 텍스트를 제공한다'와 '에이전트가 유용한 작업을 수행한다' 사이의 격차는 주로 모델 능력의 한계보다는 스캐폴딩에 관한 것입니다.