단일 GPU 로컬 RAG 도구: Nemotron Nano 9B v2 + vLLM 구축법

기술 구현 세부사항

한 개발자가 단일 GPU에서 완전히 실행되는 로컬-퍼스트 RAG 연구 도구를 구축하는 접근 방식을 공유했습니다. 전체 백엔드는 단일 app.py 파일에 포함되어 있습니다.

스택 및 구성

이 도구는 RTX 5090 GPU에서 실행되는 FP16 양자화된 vLLM 상의 Nemotron Nano 9B v2 Japanese를 사용합니다. 백엔드는 FastAPI + SQLite FTS5 + Jinja2를 결합합니다. 도구 호출을 위해 개발자는 NVIDIA의 공식 파서 플러그인, 특히 --tool-call-parser nemotron_json과 --tool-parser-plugin을 사용하며, Nemotron v2는 내장 vLLM 파서(v3용) 대신 커스텀 파서 플러그인이 필요하다고 언급합니다.

주요 설계 결정

시스템은 추출 → 실행 두 단계 흐름을 구현합니다:

질문이 제기되면 시스템은 먼저 LLM을 통해 이중 언어 키워드(영어와 일본어)를 추출합니다
로컬 소스에 대한 FTS5 검색과 DuckDuckGo 웹 검색을 병렬로 실행합니다
사용자 선택을 위한 체크박스와 함께 결과를 표시합니다
사용자 선택 후에만 최종 응답을 생성합니다

이 접근 방식은 10만 개 이상의 토큰 컨텍스트를 덤프하고 모델이 알아내길 바라는 것을 피합니다.

성능 및 기능

도구 호출: 모델은 웹 검색 시기를 자율적으로 결정하며, 온도 0.1에서 놀랍도록 잘 작동합니다
접두사 캐시 워밍업: 소스 로드 시 모든 것을 캐싱하는 대신, 사용자가 소스 미리보기를 볼 때 KV 캐시가 워밍업됩니다. 사용자가 실행을 클릭할 때쯤이면 vLLM의 --enable-prefix-caching을 사용하여 접두사가 이미 캐시되어 있습니다
이중 언어 FTS5 검색: 사용자 쿼리 → Nemotron이 영어와 일본어로 키워드 추출 → OR-결합된 FTS5 MATCH 쿼리, 다국어 특허/연구 데이터에 효과적입니다

성능 수치

~80-120 토큰/초 출력
8192 최대 토큰
소스 추출: ~3-5초 (키워드 추출 + FTS5 + DDG 병렬)
5개 소스 + 3개 웹 결과를 포함한 전체 응답: RTX 5090에서 상세 답변에 대해 ~50초

설정 및 Source

소스 코드는 https://github.com/soy-tuber/SoyLM에서 확인할 수 있습니다. uv pip install -r requirements.txt로 설치할 수 있는 단일 파일 애플리케이션입니다. 별도로 Nemotron 파서 플러그인이 포함된 vLLM이 필요합니다.

📖 Read the full source: r/LocalLLaMA