RAG Local com Nemotron Nano 9B v2 e vLLM: Como Construir

Detalhes da Implementação Técnica

Um desenvolvedor compartilhou sua abordagem para construir uma ferramenta de pesquisa RAG local-first que roda inteiramente em uma única GPU. Todo o backend está contido em um único arquivo app.py.

Stack e Configuração

A ferramenta usa Nemotron Nano 9B v2 Japanese no vLLM com quantização FP16, rodando em uma GPU RTX 5090. O backend combina FastAPI + SQLite FTS5 + Jinja2. Para chamadas de ferramentas, o desenvolvedor usa os plugins de parser oficiais da NVIDIA, especificamente --tool-call-parser nemotron_json e --tool-parser-plugin, observando que o Nemotron v2 requer plugins de parser personalizados em vez dos parsers integrados do vLLM (que são para v3).

Principais Decisões de Design

O sistema implementa um fluxo de duas etapas extração → execução:

Quando uma pergunta é feita, o sistema primeiro extrai palavras-chave bilíngues (inglês e japonês) via LLM
Executa busca FTS5 em fontes locais E busca web no DuckDuckGo em paralelo
Mostra resultados com caixas de seleção para escolha do usuário
Só após a seleção do usuário ele gera a resposta final

Essa abordagem evita despejar 100k+ tokens de contexto e torcer para o modelo entender.

Desempenho e Recursos

Chamadas de Ferramentas: O modelo decide autonomamente quando buscar na web, funcionando surpreendentemente bem na temperatura 0.1
Aquecimento do Cache de Prefixo: Em vez de armazenar tudo em cache ao carregar a fonte, o cache KV é aquecido quando o usuário vê a prévia da fonte. Quando eles clicam em Executar, o prefixo já está em cache usando --enable-prefix-caching no vLLM
Busca FTS5 Bilíngue: Consulta do usuário → Nemotron extrai palavras-chave em inglês e japonês → consulta FTS5 MATCH com junção OR, eficaz para dados de patentes/pesquisa multilíngue

Números de Desempenho

~80-120 tok/s de saída
8192 tokens máximos
Extração de fontes: ~3-5s (extração de palavras-chave + FTS5 + DDG paralelo)
Resposta completa com 5 fontes + 3 resultados web: ~50s para uma resposta detalhada na RTX 5090

Configuração e Source

O código-fonte está disponível em https://github.com/soy-tuber/SoyLM. É um aplicativo de arquivo único que pode ser instalado com uv pip install -r requirements.txt. Observe que requer vLLM com os plugins de parser do Nemotron separadamente.

📖 Leia o source completo: r/LocalLLaMA

Ferramenta Local RAG Construída com Nemotron Nano 9B v2 e Chamada de Ferramentas vLLM

Detalhes da Implementação Técnica

Stack e Configuração

Principais Decisões de Design

Desempenho e Recursos

Números de Desempenho

Configuração e Source

👀 See Also

Máquina Virtual Lógica: Um Sistema Baseado em Prompt para Interromper Colapsos de Raciocínio em LLMs

50 Aplicativos Populares Reversamente Engenhados em Especificações de Design Legíveis por Claude: Padrões Chave para Clonagem de UI

Camada de Roteamento de Contexto Reduz o Uso de Tokens de Código do Claude ao Rastrear Arquivos Acessados

Alfred Beta Lançado: Alternativa Simplificada ao OpenClaw para Usuários Não Técnicos