로컬 RAG 도구, Nemotron Nano 9B v2 및 vLLM 도구 호출로 구축됨

✍️ OpenClawRadar📅 게시일: March 27, 2026🔗 Source
로컬 RAG 도구, Nemotron Nano 9B v2 및 vLLM 도구 호출로 구축됨
Ad

기술 구현 세부사항

한 개발자가 단일 GPU에서 완전히 실행되는 로컬-퍼스트 RAG 연구 도구를 구축하는 접근 방식을 공유했습니다. 전체 백엔드는 단일 app.py 파일에 포함되어 있습니다.

스택 및 구성

이 도구는 RTX 5090 GPU에서 실행되는 FP16 양자화된 vLLM 상의 Nemotron Nano 9B v2 Japanese를 사용합니다. 백엔드는 FastAPI + SQLite FTS5 + Jinja2를 결합합니다. 도구 호출을 위해 개발자는 NVIDIA의 공식 파서 플러그인, 특히 --tool-call-parser nemotron_json--tool-parser-plugin을 사용하며, Nemotron v2는 내장 vLLM 파서(v3용) 대신 커스텀 파서 플러그인이 필요하다고 언급합니다.

주요 설계 결정

시스템은 추출 → 실행 두 단계 흐름을 구현합니다:

  • 질문이 제기되면 시스템은 먼저 LLM을 통해 이중 언어 키워드(영어와 일본어)를 추출합니다
  • 로컬 소스에 대한 FTS5 검색과 DuckDuckGo 웹 검색을 병렬로 실행합니다
  • 사용자 선택을 위한 체크박스와 함께 결과를 표시합니다
  • 사용자 선택 후에만 최종 응답을 생성합니다

이 접근 방식은 10만 개 이상의 토큰 컨텍스트를 덤프하고 모델이 알아내길 바라는 것을 피합니다.

Ad

성능 및 기능

  • 도구 호출: 모델은 웹 검색 시기를 자율적으로 결정하며, 온도 0.1에서 놀랍도록 잘 작동합니다
  • 접두사 캐시 워밍업: 소스 로드 시 모든 것을 캐싱하는 대신, 사용자가 소스 미리보기를 볼 때 KV 캐시가 워밍업됩니다. 사용자가 실행을 클릭할 때쯤이면 vLLM의 --enable-prefix-caching을 사용하여 접두사가 이미 캐시되어 있습니다
  • 이중 언어 FTS5 검색: 사용자 쿼리 → Nemotron이 영어와 일본어로 키워드 추출 → OR-결합된 FTS5 MATCH 쿼리, 다국어 특허/연구 데이터에 효과적입니다

성능 수치

  • ~80-120 토큰/초 출력
  • 8192 최대 토큰
  • 소스 추출: ~3-5초 (키워드 추출 + FTS5 + DDG 병렬)
  • 5개 소스 + 3개 웹 결과를 포함한 전체 응답: RTX 5090에서 상세 답변에 대해 ~50초

설정 및 Source

소스 코드는 https://github.com/soy-tuber/SoyLM에서 확인할 수 있습니다. uv pip install -r requirements.txt로 설치할 수 있는 단일 파일 애플리케이션입니다. 별도로 Nemotron 파서 플러그인이 포함된 vLLM이 필요합니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

AI 에이전트 메모리 부패 방지를 위한 두 가지 패턴: AutoDream과 Skeptical Retrieval
Tools

AI 에이전트 메모리 부패 방지를 위한 두 가지 패턴: AutoDream과 Skeptical Retrieval

OpenClaw는 파일 기반 AI 메모리 부패 문제를 해결하기 위해 두 가지 MIT 라이선스 패턴을 소개합니다: 야간 메모리 통합을 위한 AutoDream과 감쇠 가중 메모리 점수를 위한 Skeptical Retrieval입니다. 두 패턴은 상호작용하며 자가 개선 루프를 형성하여 에이전트 컨텍스트를 최신 상태로 유지합니다.

OpenClawRadar
Argyph: 19개의 구조화된 코드 이해 도구를 갖춘 Claude Code용 단일 MCP 서버
Tools

Argyph: 19개의 구조화된 코드 이해 도구를 갖춘 Claude Code용 단일 MCP 서버

Argyph는 로컬 MCP 서버로, Claude Code에 19개의 도구(정의로 이동, 참조 찾기, 호출 그래프, 의미 검색, 토큰 예산 기반 리포지토리 패킹)를 제공하며, 여러 개의 개별 MCP 서버를 하나의 설치로 대체합니다. API 키가 필요 없으며 모든 처리가 사용자 머신에서 이루어집니다.

OpenClawRadar
Definable AI는 단일 플래그로 셀프 호스팅 가능한 관찰 가능성 대시보드를 추가합니다.
Tools

Definable AI는 단일 플래그로 셀프 호스팅 가능한 관찰 가능성 대시보드를 추가합니다.

Definable AI, AI 에이전트 구축을 위한 오픈소스 Python 프레임워크가 이제 단일 플래그로 활성화할 수 있는 내장형 관측 가능성 대시보드를 포함합니다. 이 대시보드는 외부 의존성 없이 실시간 이벤트 스트리밍, 토큰 계정 관리, 지연 시간 메트릭, 실행 재생 기능을 제공합니다.

OpenClawRadar
오프로드-mcp MCP 서버를 통해 일상적인 Claude Code 작업을 Gemma에 오프로드하기
Tools

오프로드-mcp MCP 서버를 통해 일상적인 Claude Code 작업을 Gemma에 오프로드하기

offload-mcp는 Claude가 커밋 메시지나 PR 요약과 같은 일상적인 작업을 무료 모델 API(기본값은 Google GenAI API를 통한 Gemma)로 오프로드하여 Claude 토큰을 절약하고 로컬 하드웨어 제약 없이 가벼운 작업을 실행할 수 있게 해주는 새로운 MCP 서버입니다.

OpenClawRadar