Локальный инструмент RAG, созданный с использованием Nemotron Nano 9B v2 и вызова инструментов vLLM

✍️ OpenClawRadar📅 Опубликовано: 27 марта 2026 г.🔗 Source
Локальный инструмент RAG, созданный с использованием Nemotron Nano 9B v2 и вызова инструментов vLLM
Ad

Технические детали реализации

Разработчик поделился своим подходом к созданию локального инструмента для исследований RAG, который полностью работает на одном GPU. Весь бэкенд содержится в одном файле app.py.

Стек и конфигурация

Инструмент использует Nemotron Nano 9B v2 Japanese на vLLM с квантованием FP16, работая на GPU RTX 5090. Бэкенд сочетает FastAPI + SQLite FTS5 + Jinja2. Для вызова инструментов разработчик использует официальные плагины-парсеры NVIDIA, в частности --tool-call-parser nemotron_json и --tool-parser-plugin, отмечая, что Nemotron v2 требует пользовательские плагины-парсеры, а не встроенные парсеры vLLM (которые предназначены для v3).

Ключевые проектные решения

Система реализует двухэтапный процесс извлечение → выполнение:

  • Когда задаётся вопрос, система сначала извлекает двуязычные ключевые слова (английские и японские) через LLM
  • Запускает поиск FTS5 по локальным источникам И поиск в вебе через DuckDuckGo параллельно
  • Показывает результаты с флажками для выбора пользователем
  • Только после выбора пользователя генерирует окончательный ответ

Такой подход позволяет избежать сброса контекста в 100к+ токенов и надежды, что модель сама во всём разберётся.

Ad

Производительность и особенности

  • Вызов инструментов: Модель самостоятельно решает, когда искать в вебе, что работает удивительно хорошо при температуре 0.1
  • Прогрев кэша префикса: Вместо кэширования всего при загрузке источника, KV-кэш прогревается, когда пользователь видит предпросмотр источника. К моменту нажатия Execute префикс уже закэширован с использованием --enable-prefix-caching на vLLM
  • Двуязычный поиск FTS5: Запрос пользователя → Nemotron извлекает ключевые слова на английском и японском → OR-объединённый запрос FTS5 MATCH, эффективный для многоязычных патентных/исследовательских данных

Показатели производительности

  • ~80-120 токенов/с на выводе
  • 8192 максимальных токенов
  • Извлечение источников: ~3-5с (извлечение ключевых слов + FTS5 + DDG параллельно)
  • Полный ответ с 5 источниками + 3 веб-результатами: ~50с для подробного ответа на RTX 5090

Установка и источник

Исходный код доступен по адресу https://github.com/soy-tuber/SoyLM. Это однодокументное приложение, которое можно установить с помощью uv pip install -r requirements.txt. Обратите внимание, что оно требует vLLM с плагинами-парсерами Nemotron отдельно.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Открытая SQLite-основная система постоянной памяти для Claude
Инструменты

Открытая SQLite-основная система постоянной памяти для Claude

Разработчик выпустил memchat — локальную систему с лицензией GPL, которая извлекает знания из сессий Claude в контрольных точках, сохраняет их в SQLite и собирает заново для новых сессий, чтобы поддерживать контекст между разговорами.

OpenClawRadar
SpruceChat запускает 0.5B LLM на устройстве на консолях Miyoo с помощью llama.cpp.
Инструменты

SpruceChat запускает 0.5B LLM на устройстве на консолях Miyoo с помощью llama.cpp.

SpruceChat запускает Qwen2.5-0.5B полностью на устройстве на портативных игровых консолях с использованием llama.cpp, без необходимости в облаке или Wi-Fi. На Miyoo A30 (четырёхъядерный Cortex-A7) загрузка занимает ~60 секунд, а генерация идёт со скоростью ~1-2 токена в секунду.

OpenClawRadar
VT Code: Агент программирования с TUI на Rust с открытым исходным кодом, поддержкой нескольких провайдеров и навыками агента
Инструменты

VT Code: Агент программирования с TUI на Rust с открытым исходным кодом, поддержкой нескольких провайдеров и навыками агента

VT Code — это терминальный ИИ-агент (TUI) на Rust, поддерживающий Anthropic, OpenAI, Gemini и Codex, с локальным выводом через LM Studio и Ollama. Включает навыки агента, протокол контекста модели и клиентский протокол агента.

OpenClawRadar
Управление кодом Claude удаленно: Продолжение локальных сессий с любого устройства
Инструменты

Управление кодом Claude удаленно: Продолжение локальных сессий с любого устройства

Claude Code Remote Control позволяет продолжить локальные сессии Claude Code с других устройств, таких как телефоны или браузеры, сохраняя всё запущенным на вашем компьютере. Доступно в режиме исследовательского предпросмотра для планов Pro и Max, требует настройки аутентификации и доверия к рабочему пространству.

OpenClawRadar