Запуск NemoClaw с локальным vLLM: Заметки по настройке и наблюдения по разработке агентов

Локальная настройка NemoClaw с vLLM
Разработчик поделился опытом запуска NVIDIA NemoClaw, платформы изолированных AI-агентов, с локальной моделью Nemotron 9B v2 с использованием vLLM на WSL2. Настройка основана на форке NemoClaw от jieunl24.
Ключевые технические детали
Маршрутизация вывода: Маршрутизация вывода в NemoClaw следует чистому пути: inference.local → gateway → vLLM. Однако первоначальные ошибки при подключении требовали сетевого хака из трёх слоёв, который с тех пор исправлен через PR #412.
Совместимость парсеров: Встроенные парсеры vLLM (qwen3_coder, nemotron_v3) несовместимы с моделями Nemotron v2. Вместо них нужны официальные плагины-парсеры NVIDIA из репозитория NeMo.
Разрыв в разработке агентов: OpenClaw как платформа для агентов предоставляет прочную инфраструктуру, но поставляется с минимальной инженерией промптов. Разрыв между "модель выдаёт текст" и "агент выполняет полезную работу" в основном связан с каркасом, а не с ограничениями возможностей модели.
Ресурсы
- Пост в блоге, охватывающий архитектуру, настройку парсеров vLLM и наблюдения по разработке агентов: https://github.com/soy-tuber/nemoclaw-local-inference-guide/blob/master/BLOG-openclaw-agent-engineering.md
- Руководство по настройке (V2) с маршрутизацией inference.local и без сетевых хаков: https://github.com/soy-tuber/nemoclaw-local-inference-guide
- Исходная проблема NemoClaw #315: https://github.com/NVIDIA/NemoClaw/issues/315
Эта настройка демонстрирует практическое локальное развёртывание платформ AI-агентов, выделяя как технические детали реализации, так и текущие проблемы в разработке агентов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Знающий Ворон: Поисковый плагин базы знаний для Claude
Knowledge Raven — это инструмент, который позволяет Claude искать в ваших документах из таких источников, как Confluence, Notion, Google Drive, Dropbox и GitHub, через плагин для Claude Desktop или MCP-сервер, предоставляя семантический поиск, поиск по ключевым словам и полное извлечение документов.

VidLens MCP Server: Постоянная база знаний YouTube для Claude
VidLens — это бесплатный, открытый MCP-сервер, который индексирует контент YouTube локально с использованием семантических эмбеддингов, рассматривая видео как постоянную базу знаний, а не извлекая временные транскрипты. Он предоставляет 41 инструмент в 10 модулях для поиска, анализа и извлечения видеоконтента.

OpenMind добавляет визуальный интерфейс ментальных карт к установкам OpenClaw.
OpenMind — это инструмент с открытым исходным кодом, который преобразует установки OpenClaw в интерактивные, редактируемые в реальном времени ментальные карты с визуализацией памяти, горячей заменой логики и полнотекстовым поиском по всем узлам.

Бенчмарк: MLX vs Ollama, запуск Qwen3-Coder-Next 8-Bit на MacBook Pro M5 Max
Бенчмарк, сравнивающий бэкенды MLX и Ollama, работающие с квантованной 8-битной версией Qwen3-Coder-Next на MacBook Pro M5 Max с 128 ГБ оперативной памяти, показал, что MLX достигает примерно 72 токенов в секунду, что примерно вдвое превышает пропускную способность Ollama в различных задачах программирования.