Ferramenta Local RAG Construída com Nemotron Nano 9B v2 e Chamada de Ferramentas vLLM

Detalhes da Implementação Técnica
Um desenvolvedor compartilhou sua abordagem para construir uma ferramenta de pesquisa RAG local-first que roda inteiramente em uma única GPU. Todo o backend está contido em um único arquivo app.py.
Stack e Configuração
A ferramenta usa Nemotron Nano 9B v2 Japanese no vLLM com quantização FP16, rodando em uma GPU RTX 5090. O backend combina FastAPI + SQLite FTS5 + Jinja2. Para chamadas de ferramentas, o desenvolvedor usa os plugins de parser oficiais da NVIDIA, especificamente --tool-call-parser nemotron_json e --tool-parser-plugin, observando que o Nemotron v2 requer plugins de parser personalizados em vez dos parsers integrados do vLLM (que são para v3).
Principais Decisões de Design
O sistema implementa um fluxo de duas etapas extração → execução:
- Quando uma pergunta é feita, o sistema primeiro extrai palavras-chave bilíngues (inglês e japonês) via LLM
- Executa busca FTS5 em fontes locais E busca web no DuckDuckGo em paralelo
- Mostra resultados com caixas de seleção para escolha do usuário
- Só após a seleção do usuário ele gera a resposta final
Essa abordagem evita despejar 100k+ tokens de contexto e torcer para o modelo entender.
Desempenho e Recursos
- Chamadas de Ferramentas: O modelo decide autonomamente quando buscar na web, funcionando surpreendentemente bem na temperatura 0.1
- Aquecimento do Cache de Prefixo: Em vez de armazenar tudo em cache ao carregar a fonte, o cache KV é aquecido quando o usuário vê a prévia da fonte. Quando eles clicam em Executar, o prefixo já está em cache usando
--enable-prefix-cachingno vLLM - Busca FTS5 Bilíngue: Consulta do usuário → Nemotron extrai palavras-chave em inglês e japonês → consulta FTS5 MATCH com junção OR, eficaz para dados de patentes/pesquisa multilíngue
Números de Desempenho
- ~80-120 tok/s de saída
- 8192 tokens máximos
- Extração de fontes: ~3-5s (extração de palavras-chave + FTS5 + DDG paralelo)
- Resposta completa com 5 fontes + 3 resultados web: ~50s para uma resposta detalhada na RTX 5090
Configuração e Source
O código-fonte está disponível em https://github.com/soy-tuber/SoyLM. É um aplicativo de arquivo único que pode ser instalado com uv pip install -r requirements.txt. Observe que requer vLLM com os plugins de parser do Nemotron separadamente.
📖 Leia o source completo: r/LocalLLaMA
👀 See Also

Corvo do Conhecimento: Um Plugin de Base de Conhecimento Pesquisável para Claude
Knowledge Raven é uma ferramenta que permite ao Claude pesquisar seus documentos de fontes como Confluence, Notion, Google Drive, Dropbox e GitHub por meio de um plugin do Claude Desktop ou servidor MCP, oferecendo pesquisa semântica, pesquisa por palavras-chave e recuperação completa de documentos.

Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra
Um usuário testou o Nemotron 3 Super 120B com um modelo quantizado Q4_K_M usando llama.cpp em um M1 Ultra, alcançando uma janela de contexto de 1 milhão de tokens que consumiu aproximadamente 90 GB de VRAM. Os benchmarks de desempenho mostram velocidades de geração de tokens variando de 255 t/s no processamento de prompt de 512 até 22,37 t/s em contexto de 100.000 tokens.

SkillMesh: Roteador Compatível com MCP para Grandes Catálogos de Ferramentas Reduz Tamanho do Contexto em 70%
SkillMesh é um roteador compatível com MCP que recupera apenas os cartões de especialistas relevantes para consultas de agentes de IA, reduzindo o tamanho do contexto em 70% e melhorando a seleção de ferramentas. Ele suporta Claude via servidor MCP, pacotes de habilidades Codex e esquemas de função no estilo OpenAI.

OpenCawt: Sistema Judiciário de Código Aberto para Disputas de Agentes de IA
OpenCawt é um sistema judiciário de código aberto para agentes autônomos que permite que eles registrem disputas, apresentem evidências, recebam decisões estruturadas e seluem resultados como registros públicos verificáveis. Inclui uma camada de protocolo leve chamada OCP para formalizar acordos e decisões dentro de outras aplicações.