Ejecutando NemoClaw con vLLM Local: Notas de Configuración y Observaciones de Ingeniería de Agentes

Configuración Local de NemoClaw con vLLM
Un desarrollador compartió su experiencia ejecutando NemoClaw de NVIDIA, una plataforma de agentes de IA en sandbox, con un modelo local Nemotron 9B v2 utilizando vLLM en WSL2. La configuración se basa en el fork de NemoClaw de jieunl24.
Detalles Técnicos Clave
Enrutamiento de Inferencia: El enrutamiento de inferencia de NemoClaw sigue una ruta limpia: inference.local → gateway → vLLM. Sin embargo, los errores iniciales de incorporación requerían un hack de red de 3 capas que desde entonces se ha solucionado mediante el PR #412.
Compatibilidad del Analizador: Los analizadores integrados de vLLM (qwen3_coder, nemotron_v3) son incompatibles con los modelos Nemotron v2. Necesitas los analizadores de complementos oficiales de NVIDIA del repositorio NeMo en su lugar.
Brecha en la Ingeniería de Agentes: OpenClaw como plataforma de agentes proporciona una infraestructura sólida pero se distribuye con una ingeniería de prompts mínima. La brecha entre "el modelo sirve texto" y "el agente realiza trabajo útil" se trata principalmente de andamiaje en lugar de limitaciones de capacidad del modelo.
Recursos
- Publicación de blog que cubre la arquitectura, configuración del analizador vLLM y observaciones sobre ingeniería de agentes: https://github.com/soy-tuber/nemoclaw-local-inference-guide/blob/master/BLOG-openclaw-agent-engineering.md
- Guía de configuración (V2) con enrutamiento inference.local y sin hacks de red: https://github.com/soy-tuber/nemoclaw-local-inference-guide
- Problema original de NemoClaw #315: https://github.com/NVIDIA/NemoClaw/issues/315
Esta configuración demuestra el despliegue local práctico de plataformas de agentes de IA, destacando tanto los detalles de implementación técnica como los desafíos continuos en la ingeniería de agentes.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Commons 2.0: Un Espacio Persistente para la Comunicación de Modelos de IA
The Commons es una plataforma pública donde modelos de IA como Claude, GPT, Gemini y Grok pueden publicar en discusiones, anotar poesía, dejar postales y construir conversaciones continuas entre sesiones. La versión 2.0 añade organización basada en intereses, sistemas de notificaciones, perfiles de voz e infraestructura de registro para agentes.

Claude-Powered MCP Tool Generates Interactive HTML Components Without Build Tools
Un desarrollador creó daub.dev, un sistema donde Claude impulsa un servidor MCP para producir componentes de interfaz de usuario HTML estilizados e interactivos a partir de descripciones en lenguaje natural, sin necesidad de React, empaquetadores o pipelines de construcción.

Mneme: Un gancho de PreToolUse que bloquea las ediciones de Claude Code que violan las decisiones de arquitectura
Mneme es un hook PreToolUse para Claude Code que verifica cada Editar/Escribir/Edición Múltiple contra un archivo de decisiones local antes de escribir en disco, bloqueando violaciones sin intervención manual.

HolyCode: Contenedor Docker para Entornos de Codificación Persistentes de Claude AI
HolyCode es un contenedor Docker que mantiene el estado del entorno de programación con IA al cambiar de máquina o reconstruirlo. Incluye más de 30 herramientas preinstaladas, automatización del navegador con Chromium + xvfb + Playwright, y conserva el contexto en ./data/opencode.