RAG Local con Nemotron Nano 9B v2 y vLLM: Guía Completa

Detalles de Implementación Técnica

Un desarrollador ha compartido su enfoque para construir una herramienta de investigación RAG local-first que funciona completamente en una sola GPU. Todo el backend está contenido en un solo archivo app.py.

Stack y Configuración

La herramienta utiliza Nemotron Nano 9B v2 Japanese en vLLM con cuantización FP16, ejecutándose en una GPU RTX 5090. El backend combina FastAPI + SQLite FTS5 + Jinja2. Para las llamadas a herramientas, el desarrollador utiliza los complementos de análisis oficiales de NVIDIA, específicamente --tool-call-parser nemotron_json y --tool-parser-plugin, señalando que Nemotron v2 requiere complementos de análisis personalizados en lugar de los analizadores integrados de vLLM (que son para v3).

Decisiones de Diseño Clave

El sistema implementa un flujo de dos pasos extraer → ejecutar:

Cuando se hace una pregunta, el sistema primero extrae palabras clave bilingües (inglés y japonés) mediante LLM
Ejecuta búsqueda FTS5 en fuentes locales Y búsqueda web DuckDuckGo en paralelo
Muestra resultados con casillas de verificación para selección del usuario
Solo después de la selección del usuario genera la respuesta final

Este enfoque evita volcar más de 100k tokens de contexto y esperar que el modelo lo resuelva.

Rendimiento y Características

Llamadas a Herramientas: El modelo decide autónomamente cuándo buscar en la web, funcionando sorprendentemente bien a temperatura 0.1
Calentamiento de Caché de Prefijos: En lugar de almacenar todo en caché al cargar la fuente, la caché KV se calienta cuando el usuario ve la vista previa de la fuente. Para cuando hacen clic en Ejecutar, el prefijo ya está en caché usando --enable-prefix-caching en vLLM
Búsqueda FTS5 Bilingüe: Consulta del usuario → Nemotron extrae palabras clave en inglés y japonés → consulta MATCH FTS5 unida con OR, efectiva para datos de patentes/investigación multilingües

Números de Rendimiento

~80-120 tok/s de salida
8192 tokens máximos
Extracción de fuentes: ~3-5s (extracción de palabras clave + FTS5 + DDG en paralelo)
Respuesta completa con 5 fuentes + 3 resultados web: ~50s para una respuesta detallada en RTX 5090

Configuración y Source

El código fuente está disponible en https://github.com/soy-tuber/SoyLM. Es una aplicación de un solo archivo que se puede instalar con uv pip install -r requirements.txt. Nota que requiere vLLM con los complementos de análisis Nemotron por separado.

📖 Read the full source: r/LocalLLaMA

Herramienta RAG Local Construida con Nemotron Nano 9B v2 y Llamadas de Herramienta vLLM

Detalles de Implementación Técnica

Stack y Configuración

Decisiones de Diseño Clave

Rendimiento y Características

Números de Rendimiento

Configuración y Source

👀 Ver también

Claude Code + MCP genera suites de pruebas a partir del código fuente

Libro Mayor del Proyecto: Sistema de Memoria con Intervención Humana para Agentes de Codificación de IA

Sistema de traducción autoactualizable para OpenClaw mantiene glosarios de dominio automáticamente.

Subrutinas de IA: Automatización Determinista del Navegador con Costo Cero de Tokens