Outil RAG Local Construit avec Nemotron Nano 9B v2 et Appel d'Outils vLLM

Détails techniques de mise en œuvre
Un développeur a partagé son approche pour créer un outil de recherche RAG local-first qui fonctionne entièrement sur un seul GPU. L'ensemble du backend est contenu dans un seul fichier app.py.
Stack et configuration
L'outil utilise Nemotron Nano 9B v2 Japanese sur vLLM avec quantification FP16, fonctionnant sur un GPU RTX 5090. Le backend combine FastAPI + SQLite FTS5 + Jinja2. Pour l'appel d'outils, le développeur utilise les plugins d'analyse officiels de NVIDIA, spécifiquement --tool-call-parser nemotron_json et --tool-parser-plugin, notant que Nemotron v2 nécessite des plugins d'analyse personnalisés plutôt que les analyseurs intégrés de vLLM (qui sont pour v3).
Décisions de conception clés
Le système implémente un flux en deux étapes d'extraction → exécution :
- Lorsqu'une question est posée, le système extrait d'abord des mots-clés bilingues (anglais et japonais) via LLM
- Exécute une recherche FTS5 sur les sources locales ET une recherche web DuckDuckGo en parallèle
- Affiche les résultats avec des cases à cocher pour la sélection par l'utilisateur
- Ce n'est qu'après la sélection de l'utilisateur qu'il génère la réponse finale
Cette approche évite de déverser plus de 100 000 tokens de contexte et d'espérer que le modèle comprenne.
Performances et fonctionnalités
- Appel d'outils : Le modèle décide de manière autonome quand rechercher sur le web, fonctionnant étonnamment bien à une température de 0,1
- Préchauffage du cache de préfixe : Au lieu de tout mettre en cache au chargement de la source, le cache KV est préchauffé lorsque l'utilisateur voit l'aperçu de la source. Au moment où il clique sur Exécuter, le préfixe est déjà mis en cache en utilisant
--enable-prefix-cachingsur vLLM - Recherche FTS5 bilingue : Requête utilisateur → Nemotron extrait des mots-clés en anglais et japonais → Requête FTS5 MATCH avec jointure OR, efficace pour les données multilingues de brevets/recherche
Chiffres de performance
- ~80-120 tok/s en sortie
- 8192 tokens maximum
- Extraction de sources : ~3-5s (extraction de mots-clés + FTS5 + DDG en parallèle)
- Réponse complète avec 5 sources + 3 résultats web : ~50s pour une réponse détaillée sur RTX 5090
Installation et Source
Le code source est disponible à l'adresse https://github.com/soy-tuber/SoyLM. C'est une application en un seul fichier qui peut être installée avec uv pip install -r requirements.txt. Notez qu'elle nécessite vLLM avec les plugins d'analyse Nemotron séparément.
📖 Read the full source: r/LocalLLaMA
👀 See Also

PhantomCrowd : Simulateur d'audience multi-agents utilisant Claude Code
PhantomCrowd est un moteur de prédiction multi-agent axé sur le marketing qui simule la réaction de véritables audiences au contenu avant sa publication. Il génère 10 à 500 personnages avec des données démographiques et des personnalités uniques, chacun réagissant indépendamment à du contenu comme des textes publicitaires ou des publications sur les réseaux sociaux.

Système de Cerveau Second Open Source Construit sur Claude Code pour la Gestion des Tâches
Un système open source appelé Kipi System utilise Claude Code pour suivre les fils ouverts, rédiger des relances et gérer les tâches en récupérant les données du calendrier, des e-mails, du CRM et des flux sociaux. Il génère un fichier HTML quotidien contenant des actions pré-rédigées triées par difficulté.

Homme des cavernes : Une Compétence de Code Claude Qui Réduit de 75 % les Tokens en Utilisant un Discours de Style Homme des Cavernes
Caveman est une compétence Claude Code qui réduit l'utilisation de tokens d'environ 75 % en faisant répondre Claude dans un style concis, semblable à celui d'un homme des cavernes, tout en conservant une précision technique complète. Il est installé via npx ou le marché des plugins Claude.

La compétence Claude Code combine les approches de DeepMind Aletheia et d'Anthropic harness.
Une compétence Claude Code implémente un pipeline Planificateur → Générateur → Évaluateur → Réviseur qui synthétise l'agent de recherche mathématique Aletheia de DeepMind avec l'architecture de codage multi-agent d'Anthropic, ajoutant une pré-analyse à l'aveugle où l'évaluateur raisonne sur les approches correctes avant de voir le code candidat.