OpenClaw con Docker, Chromium y noVNC: Automatización con intervención humana

Un desarrollador en r/openclaw documentó su configuración para permitir que OpenClaw maneje tareas que requieren intervención humana, como la resolución de CAPTCHAs y aprobaciones durante sesiones automatizadas del navegador. La solución utiliza un contenedor Docker con Chromium, noVNC y herramientas relacionadas para permitir intervención remota cuando sea necesario.

Cómo funciona

El agente controla un navegador sin interfaz gráfica a través del Protocolo de Herramientas de Desarrollo de Chrome (CDP). Cuando encuentra un CAPTCHA o necesita aprobación humana, envía una notificación por Telegram. El usuario abre una URL de noVNC en su teléfono o portátil para ver e interactuar con el navegador, luego responde "hecho" para permitir que el agente continúe. La configuración requiere aproximadamente 300MB de RAM con un tiempo de arranque en frío de 3 segundos.

Aplicación práctica

El desarrollador probó esta configuración haciendo que OpenClaw reservara una recogida de mensajería. Después de proporcionar fotos de notas de consignación y correos electrónicos, el agente completó el formulario en línea, seleccionó fechas y lo envió mientras el desarrollador monitoreaba a través de noVNC. Notaron que el widget Chromium de Claude Opus 4.6 tuvo dificultades con la misma tarea, quedándose atascado en bucles de navegación mientras OpenClaw completaba la reserva.

Implementación técnica

El contenedor Docker ejecuta:

Xvfb para pantalla virtual
Chromium con Playwright
x11vnc y noVNC para visualización remota
supervisord para gestión de procesos

El bot controla Chromium a través de CDP desde dentro del contenedor, mientras los usuarios ven el navegador a través de noVNC desde cualquier dispositivo con una URL simple (sin aplicación requerida).

Medidas de seguridad

noVNC accesible solo a través de Tailscale (el dispositivo cliente debe ser parte de la tailnet)
Puerto CDP vinculado solo a localhost
El contenedor no tiene acceso al sistema de archivos del host
Chromium se ejecuta sin privilegios
Contraseñas/2FA manejadas a través del panel del portapapeles de noVNC directamente

Refuerzo adicional

Verificación de salud de Docker: consulta CDP cada 30s, 3 reintentos antes de marcarlo como no saludable
Límites de recursos: 1GB RAM + 2 CPUs
Poda de pestañas: mantiene máximo 5 pestañas, cierra pestañas en blanco, se ejecuta cada 5 minutos
El contenedor permanece aislado sin montajes del host

Configuración de Docker

El Dockerfile utiliza Ubuntu 24.04 e instala:

FROM ubuntu:24.04
ENV DEBIAN_FRONTEND=noninteractive
ENV DISPLAY=:99
ENV RESOLUTION=1920x1080x24
RUN apt-get update && apt-get install -y --no-install-recommends \
    ca-certificates xvfb x11vnc fonts-liberation \
    dbus-x11 supervisor curl gnupg websockify novnc \
    && rm -rf /var/lib/apt/lists/*
RUN curl -fsSL https://deb.nodesource.com/setup_20.x | bash - \
    && apt-get install -y nodejs \
    && npx playwright install --with-deps chromium \
    && rm -rf /var/lib/apt/lists/*
RUN useradd -m -s /bin/bash browser \
    && mkdir -p /home/browser/.cache \
    && cp -r /root/.cache/ms-playwright /home/browser/.cache/ \
    && chown -R browser:browser /home/browser
COPY supervisord.conf /etc/supervisor/conf.d/supervisord.conf
COPY start-chromium.sh /usr/local/bin/start-chromium.sh
RUN chmod +x /usr/local/bin/start-chromium.sh
RUN ln -sf /usr/share/novnc/vnc.html /usr/share/novnc/index.html
EXPOSE 6080 9222
CMD ["/usr/bin/supervisord", "-c", "/etc/supervisor/conf.d/supervisord.conf"]

El supervisord.conf gestiona cuatro procesos: Xvfb, Chromium, x11vnc y noVNC/websockify.

El script start-chromium.sh inicia Chrome con banderas específicas incluyendo --remote-debugging-port=9222 --remote-debugging-address=0.0.0.0 para acceso CDP.

Elementos por hacer

El desarrollador planea agregar autenticación por token en noVNC e implementar una función de detención automática después de un tiempo de inactividad.

📖 Read the full source: r/openclaw