Ferramenta Local RAG Construída com Nemotron Nano 9B v2 e Chamada de Ferramentas vLLM

✍️ OpenClawRadar📅 Publicado: March 27, 2026🔗 Source
Ferramenta Local RAG Construída com Nemotron Nano 9B v2 e Chamada de Ferramentas vLLM
Ad

Detalhes da Implementação Técnica

Um desenvolvedor compartilhou sua abordagem para construir uma ferramenta de pesquisa RAG local-first que roda inteiramente em uma única GPU. Todo o backend está contido em um único arquivo app.py.

Stack e Configuração

A ferramenta usa Nemotron Nano 9B v2 Japanese no vLLM com quantização FP16, rodando em uma GPU RTX 5090. O backend combina FastAPI + SQLite FTS5 + Jinja2. Para chamadas de ferramentas, o desenvolvedor usa os plugins de parser oficiais da NVIDIA, especificamente --tool-call-parser nemotron_json e --tool-parser-plugin, observando que o Nemotron v2 requer plugins de parser personalizados em vez dos parsers integrados do vLLM (que são para v3).

Principais Decisões de Design

O sistema implementa um fluxo de duas etapas extração → execução:

  • Quando uma pergunta é feita, o sistema primeiro extrai palavras-chave bilíngues (inglês e japonês) via LLM
  • Executa busca FTS5 em fontes locais E busca web no DuckDuckGo em paralelo
  • Mostra resultados com caixas de seleção para escolha do usuário
  • Só após a seleção do usuário ele gera a resposta final

Essa abordagem evita despejar 100k+ tokens de contexto e torcer para o modelo entender.

Ad

Desempenho e Recursos

  • Chamadas de Ferramentas: O modelo decide autonomamente quando buscar na web, funcionando surpreendentemente bem na temperatura 0.1
  • Aquecimento do Cache de Prefixo: Em vez de armazenar tudo em cache ao carregar a fonte, o cache KV é aquecido quando o usuário vê a prévia da fonte. Quando eles clicam em Executar, o prefixo já está em cache usando --enable-prefix-caching no vLLM
  • Busca FTS5 Bilíngue: Consulta do usuário → Nemotron extrai palavras-chave em inglês e japonês → consulta FTS5 MATCH com junção OR, eficaz para dados de patentes/pesquisa multilíngue

Números de Desempenho

  • ~80-120 tok/s de saída
  • 8192 tokens máximos
  • Extração de fontes: ~3-5s (extração de palavras-chave + FTS5 + DDG paralelo)
  • Resposta completa com 5 fontes + 3 resultados web: ~50s para uma resposta detalhada na RTX 5090

Configuração e Source

O código-fonte está disponível em https://github.com/soy-tuber/SoyLM. É um aplicativo de arquivo único que pode ser instalado com uv pip install -r requirements.txt. Observe que requer vLLM com os plugins de parser do Nemotron separadamente.

📖 Leia o source completo: r/LocalLLaMA

Ad

👀 See Also

Corvo do Conhecimento: Um Plugin de Base de Conhecimento Pesquisável para Claude
Tools

Corvo do Conhecimento: Um Plugin de Base de Conhecimento Pesquisável para Claude

Knowledge Raven é uma ferramenta que permite ao Claude pesquisar seus documentos de fontes como Confluence, Notion, Google Drive, Dropbox e GitHub por meio de um plugin do Claude Desktop ou servidor MCP, oferecendo pesquisa semântica, pesquisa por palavras-chave e recuperação completa de documentos.

OpenClawRadar
Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra
Tools

Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra

Um usuário testou o Nemotron 3 Super 120B com um modelo quantizado Q4_K_M usando llama.cpp em um M1 Ultra, alcançando uma janela de contexto de 1 milhão de tokens que consumiu aproximadamente 90 GB de VRAM. Os benchmarks de desempenho mostram velocidades de geração de tokens variando de 255 t/s no processamento de prompt de 512 até 22,37 t/s em contexto de 100.000 tokens.

OpenClawRadar
SkillMesh: Roteador Compatível com MCP para Grandes Catálogos de Ferramentas Reduz Tamanho do Contexto em 70%
Tools

SkillMesh: Roteador Compatível com MCP para Grandes Catálogos de Ferramentas Reduz Tamanho do Contexto em 70%

SkillMesh é um roteador compatível com MCP que recupera apenas os cartões de especialistas relevantes para consultas de agentes de IA, reduzindo o tamanho do contexto em 70% e melhorando a seleção de ferramentas. Ele suporta Claude via servidor MCP, pacotes de habilidades Codex e esquemas de função no estilo OpenAI.

OpenClawRadar
OpenCawt: Sistema Judiciário de Código Aberto para Disputas de Agentes de IA
Tools

OpenCawt: Sistema Judiciário de Código Aberto para Disputas de Agentes de IA

OpenCawt é um sistema judiciário de código aberto para agentes autônomos que permite que eles registrem disputas, apresentem evidências, recebam decisões estruturadas e seluem resultados como registros públicos verificáveis. Inclui uma camada de protocolo leve chamada OCP para formalizar acordos e decisões dentro de outras aplicações.

OpenClawRadar