Nemotron Nano 9B v2: Lokales RAG-Tool auf einer GPU

Technische Implementierungsdetails

Ein Entwickler hat seinen Ansatz zum Aufbau eines lokalen RAG-Forschungstools geteilt, das vollständig auf einer einzelnen GPU läuft. Das gesamte Backend ist in einer einzigen app.py-Datei enthalten.

Stack und Konfiguration

Das Tool verwendet Nemotron Nano 9B v2 Japanese auf vLLM mit FP16-Quantisierung und läuft auf einer RTX 5090 GPU. Das Backend kombiniert FastAPI + SQLite FTS5 + Jinja2. Für Tool-Aufrufe verwendet der Entwickler die offiziellen Parser-Plugins von NVIDIA, speziell --tool-call-parser nemotron_json und --tool-parser-plugin, wobei er darauf hinweist, dass Nemotron v2 benutzerdefinierte Parser-Plugins erfordert und nicht die integrierten vLLM-Parser (die für v3 sind).

Wichtige Designentscheidungen

Das System implementiert einen Extraktion → Ausführung zweistufigen Flow:

Wenn eine Frage gestellt wird, extrahiert das System zunächst zweisprachige Schlüsselwörter (Englisch und Japanisch) über LLM
Führt FTS5-Suche auf lokalen Quellen UND DuckDuckGo-Websuche parallel aus
Zeigt Ergebnisse mit Kontrollkästchen zur Benutzerauswahl an
Erst nach der Benutzerauswahl generiert es die endgültige Antwort

Dieser Ansatz vermeidet das Ausspucken von über 100k+ Token Kontext und die Hoffnung, dass das Modell es herausfindet.

Leistung und Funktionen

Tool-Aufrufe: Das Modell entscheidet autonom, wann es das Web durchsuchen soll, funktioniert überraschend gut bei Temperatur 0.1
Prefix-Cache-Warmup: Anstatt alles beim Laden der Quelle zu cachen, wird der KV-Cache aufgewärmt, wenn der Benutzer die Quellenvorschau sieht. Wenn sie auf Ausführen klicken, ist das Präfix bereits mit --enable-prefix-caching auf vLLM gecacht
Zweisprachige FTS5-Suche: Benutzeranfrage → Nemotron extrahiert Schlüsselwörter in Englisch und Japanisch → OR-verknüpfte FTS5 MATCH-Abfrage, effektiv für mehrsprachige Patent-/Forschungsdaten

Leistungszahlen

~80-120 tok/s Ausgabe
8192 maximale Tokens
Quellenextraktion: ~3-5s (Schlüsselwortextraktion + FTS5 + DDG parallel)
Vollständige Antwort mit 5 Quellen + 3 Web-Ergebnissen: ~50s für eine detaillierte Antwort auf RTX 5090

Einrichtung und Source

Der Quellcode ist verfügbar unter https://github.com/soy-tuber/SoyLM. Es handelt sich um eine Einzeldatei-Anwendung, die mit uv pip install -r requirements.txt installiert werden kann. Beachten Sie, dass vLLM mit den Nemotron-Parser-Plugins separat benötigt wird.

📖 Read the full source: r/LocalLLaMA