ローカルRAGツールをNemotron Nano 9B v2とvLLMツールコールで構築

✍️ OpenClawRadar📅 公開日: March 27, 2026🔗 Source
ローカルRAGツールをNemotron Nano 9B v2とvLLMツールコールで構築
Ad

技術実装の詳細

開発者が、単一のGPU上で完全に動作するローカルファーストのRAG研究ツールの構築手法を共有しました。バックエンド全体は単一のapp.pyファイルに収められています。

スタックと構成

このツールは、RTX 5090 GPU上で動作するvLLM上でFP16量子化されたNemotron Nano 9B v2 Japaneseを使用しています。バックエンドはFastAPI + SQLite FTS5 + Jinja2を組み合わせています。ツール呼び出しには、NVIDIAの公式パーサープラグイン、具体的には--tool-call-parser nemotron_json--tool-parser-pluginを使用しており、Nemotron v2は組み込みのvLLMパーサー(v3用)ではなく、カスタムパーサープラグインを必要とすることに注意しています。

主要な設計判断

このシステムは、抽出→実行の2段階フローを実装しています:

  • 質問が投げられると、システムはまずLLMを介して二言語キーワード(英語と日本語)を抽出します
  • ローカルソースに対するFTS5検索とDuckDuckGoウェブ検索を並列で実行します
  • ユーザーが選択できるチェックボックス付きで結果を表示します
  • ユーザーが選択した後にのみ、最終的な応答を生成します

このアプローチにより、10万トークン以上のコンテキストを一気に投入し、モデルが理解することを期待することを避けています。

Ad

パフォーマンスと機能

  • ツール呼び出し: モデルは自律的にウェブ検索を行うタイミングを決定し、温度0.1で驚くほど良好に動作します
  • プレフィックスキャッシュのウォームアップ: ソース読み込み時にすべてをキャッシュする代わりに、KVキャッシュはユーザーがソースプレビューを見たときにウォームアップされます。ユーザーが実行をクリックする時点では、vLLMの--enable-prefix-cachingを使用してプレフィックスは既にキャッシュされています
  • 二言語FTS5検索: ユーザークエリ → Nemotronが英語と日本語の両方でキーワードを抽出 → OR結合されたFTS5 MATCHクエリ。多言語の特許/研究データに効果的です

パフォーマンス数値

  • 出力速度:約80-120 tok/s
  • 最大トークン数:8192
  • ソース抽出:約3-5秒(キーワード抽出 + FTS5 + DDG並列検索)
  • 5つのソースと3つのウェブ結果を含む完全な応答:RTX 5090上での詳細な回答に約50秒

セットアップとソース

ソースコードはhttps://github.com/soy-tuber/SoyLMで入手可能です。これはuv pip install -r requirements.txtでインストールできる単一ファイルアプリケーションです。vLLMとNemotronパーサープラグインが別途必要であることに注意してください。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

lazyclaude: Claudeコード設定管理のためのTUI
Tools

lazyclaude: Claudeコード設定管理のためのTUI

lazyclaudeは、lazygitにインスパイアされたターミナルユーザーインターフェースツールで、ディスク上に保存されたClaude Codeのすべての設定を管理するための単一ビューを提供します。これには、メモリファイル、スキル、エージェント、MCPサーバー、設定、権限、フック、キーバインド、セッション、統計、プラグイン、ToDoなどが含まれます。

OpenClawRadar
Bifrost LLM Gateway: 11マイクロ秒のオーバーヘッド、Go製のシングルバイナリ
Tools

Bifrost LLM Gateway: 11マイクロ秒のオーバーヘッド、Go製のシングルバイナリ

Bifrostは、Goで書かれたオープンソースのLLMプロキシで、リクエストをOpenAI、Anthropic、Azure、Bedrockにルーティングし、リクエストごとに11マイクロ秒のオーバーヘッドで、月額20ドルのVPSで5,000 RPSを処理します。

OpenClawRadar
Yavio: MCPアプリ向けオープンソース製品分析SDK
Tools

Yavio: MCPアプリ向けオープンソース製品分析SDK

Yavioは、MCPおよびMCPアプリ向けのオープンソース製品分析SDKで、1回の関数呼び出しでツール呼び出し、エラー、リソース読み取りを自動的にキャプチャします。MITライセンスのこのプロジェクトは、ツールごとの内訳、ファネル、リテンション、エラートラッキングを提供するダッシュボードを備えています。

OpenClawRadar
llm-use – マルチLLMエージェントワークフローのルーティングとオーケストレーションのためのオープンソースフレームワーク
Tools

llm-use – マルチLLMエージェントワークフローのルーティングとオーケストレーションのためのオープンソースフレームワーク

llm-useは、マルチLLMエージェントワークフローの効率的なルーティングとオーケストレーションを目的としたオープンソースフレームワークで、自動化に革命をもたらしています。AI運用への影響を探ります。

OpenClawRadar