Lokales RAG-Tool, erstellt mit Nemotron Nano 9B v2 und vLLM-Tool-Aufrufen

Technische Implementierungsdetails
Ein Entwickler hat seinen Ansatz zum Aufbau eines lokalen RAG-Forschungstools geteilt, das vollständig auf einer einzelnen GPU läuft. Das gesamte Backend ist in einer einzigen app.py-Datei enthalten.
Stack und Konfiguration
Das Tool verwendet Nemotron Nano 9B v2 Japanese auf vLLM mit FP16-Quantisierung und läuft auf einer RTX 5090 GPU. Das Backend kombiniert FastAPI + SQLite FTS5 + Jinja2. Für Tool-Aufrufe verwendet der Entwickler die offiziellen Parser-Plugins von NVIDIA, speziell --tool-call-parser nemotron_json und --tool-parser-plugin, wobei er darauf hinweist, dass Nemotron v2 benutzerdefinierte Parser-Plugins erfordert und nicht die integrierten vLLM-Parser (die für v3 sind).
Wichtige Designentscheidungen
Das System implementiert einen Extraktion → Ausführung zweistufigen Flow:
- Wenn eine Frage gestellt wird, extrahiert das System zunächst zweisprachige Schlüsselwörter (Englisch und Japanisch) über LLM
- Führt FTS5-Suche auf lokalen Quellen UND DuckDuckGo-Websuche parallel aus
- Zeigt Ergebnisse mit Kontrollkästchen zur Benutzerauswahl an
- Erst nach der Benutzerauswahl generiert es die endgültige Antwort
Dieser Ansatz vermeidet das Ausspucken von über 100k+ Token Kontext und die Hoffnung, dass das Modell es herausfindet.
Leistung und Funktionen
- Tool-Aufrufe: Das Modell entscheidet autonom, wann es das Web durchsuchen soll, funktioniert überraschend gut bei Temperatur 0.1
- Prefix-Cache-Warmup: Anstatt alles beim Laden der Quelle zu cachen, wird der KV-Cache aufgewärmt, wenn der Benutzer die Quellenvorschau sieht. Wenn sie auf Ausführen klicken, ist das Präfix bereits mit
--enable-prefix-cachingauf vLLM gecacht - Zweisprachige FTS5-Suche: Benutzeranfrage → Nemotron extrahiert Schlüsselwörter in Englisch und Japanisch → OR-verknüpfte FTS5 MATCH-Abfrage, effektiv für mehrsprachige Patent-/Forschungsdaten
Leistungszahlen
- ~80-120 tok/s Ausgabe
- 8192 maximale Tokens
- Quellenextraktion: ~3-5s (Schlüsselwortextraktion + FTS5 + DDG parallel)
- Vollständige Antwort mit 5 Quellen + 3 Web-Ergebnissen: ~50s für eine detaillierte Antwort auf RTX 5090
Einrichtung und Source
Der Quellcode ist verfügbar unter https://github.com/soy-tuber/SoyLM. Es handelt sich um eine Einzeldatei-Anwendung, die mit uv pip install -r requirements.txt installiert werden kann. Beachten Sie, dass vLLM mit den Nemotron-Parser-Plugins separat benötigt wird.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Anwendung der Claude-Code-Architektur auf lokale 9B-Modelle: Wichtige Erkenntnisse und Optimierungen
Ein Entwickler extrahierte Architekturmuster aus dem geleakten Quellcode von Claude Code und wandte 10 Optimierungen auf qwen3.5:9b an, das lokal auf einer RTX 5070 Ti läuft. Die wichtigste Erkenntnis war, dass qwen3.5:9b native strukturierte tool_calls hat, und die größte Einschränkung für 9B-Modelle ist die Selbstdisziplin, zu wissen, wann man mit dem Erkunden aufhören und mit der Ausgabeerzeugung beginnen soll.

AgentPeek: Open-Source-Dashboard zur Überwachung von Claude-Code-Agent-Teams
AgentPeek ist ein lokales Dashboard, das sich in Claude Code einhakt, um Einblicke in Agententeams zu bieten, die Orchestrierungshierarchien, Ausführungsverläufe, Tokenkosten und Dateioperationen anzeigen. Die Installation erfordert das Klonen des GitHub-Repos und das Ausführen von pipx install.

Lokale Deep-Research-Tools: GPT Researcher und Local Deep Research vorn, STORM- und LangChain-Projekte stagnieren
Eine Reddit-Umfrage zu lokalen Deep-Research-Projekten vom Mai 2026 zeigt, dass GPT Researcher und LearningCircuits Local Deep Research am aktivsten sind; STORM und LangChains Open Deep Research wurden aufgegeben oder befinden sich im Halbschlaf.

MCP-Server für lokale XMind-Mindmap-Dateien veröffentlicht
Ein Entwickler hat einen MCP-Server veröffentlicht, der 22 Werkzeuge zum Lesen und Schreiben lokaler XMind-Mindmap-Dateien bereitstellt. Der Server funktioniert mit MCP-kompatiblen KI-Clients wie Claude Desktop und Cursor.