Modelos Qwen Locales Logran Automatización de Navegadores con Planificación Paso a Paso y DOM Compacto

✍️ OpenClawRadar📅 Publicado: 17 de marzo de 2026🔗 Source
Modelos Qwen Locales Logran Automatización de Navegadores con Planificación Paso a Paso y DOM Compacto
Ad

La Planificación Paso a Paso Supera los Fallos de la Planificación Previa

El desarrollador descubrió que pedir a los modelos que inventen un plan completo de múltiples pasos antes de ver el estado real de la página funciona en sitios familiares, pero falla rápidamente con elementos inesperados. Lo que funcionó mejor fue la planificación paso a paso, donde el modelo replanifica desde la instantánea actual del DOM en cada paso.

Flujo de Ejemplo en Ace Hardware

El flujo probado con Qwen 8B como planificador y 4B como ejecutor en Ace Hardware (un sitio para el que el modelo no tenía tareas previas) completó un flujo completo del carrito sin usar ningún modelo de visión. El enfoque paso a paso se veía así:

  • Paso 1: ver cuadro de búsqueda → ESCRIBIR "cortadora de césped"
  • Paso 2: ver resultados → HACER CLIC en Añadir al Carrito
  • Paso 3: aparece el cajón → descartarlo
  • Paso 4: carrito visible → HACER CLIC en Ver Carrito
  • Paso 5: HECHO
Ad

La Representación Compacta del DOM Permite Modelos Pequeños

El modelo nunca ve HTML crudo ni capturas de pantalla, solo una representación semántica en tabla:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Esto permite que el ejecutor de 4B elija un ID de elemento de una lista corta. Los enfoques de visión consumen 2-3K tokens por captura de pantalla, fácilmente 50-100K+ para un flujo completo, mientras que las instantáneas compactas usan ~15K en total para la misma tarea.

El Manejo de Modales es Crítico para el Éxito

Después de cada clic, si el DOM crece repentinamente, el agente escanea patrones de descarte (cerrar, ×, no gracias, etc.) antes de planificar nuevamente. Esto solucionó muchos fallos que parecían ser "mal razonamiento" pero en realidad eran superposiciones ocultas.

El desarrollador señala tener curiosidad por saber si otros están viendo que la planificación paso a paso supera a la planificación previa una vez que los sitios se vuelven desconocidos.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Memtrace: Memoria persistente y consciente del tiempo para agentes de código Claude
Herramientas

Memtrace: Memoria persistente y consciente del tiempo para agentes de código Claude

Memtrace proporciona instantáneas siempre actualizadas y reproducción bi-temporal para agentes de Claude Code, utilizando análisis sintáctico Tree-sitter y recuperación híbrida (BM25 + embeddings Jina-code) sin costo de inferencia de LLM durante la indexación.

OpenClawRadar
Claude AI creó un visualizador de datos OVNI con datos gubernamentales en horas
Herramientas

Claude AI creó un visualizador de datos OVNI con datos gubernamentales en horas

Un usuario de Reddit utilizó Claude AI para construir un visualizador de avistamientos OVNI full-stack a partir de datos recién publicados por el Departamento de Guerra de EE.UU., alojado en Cloudflare, en solo unas horas.

OpenClawRadar
El complemento de código abierto de Claude genera sintonizadores visuales interactivos con vista previa en vivo.
Herramientas

El complemento de código abierto de Claude genera sintonizadores visuales interactivos con vista previa en vivo.

Un desarrollador creó un complemento de código abierto que permite a Claude Code generar páginas HTML individuales con controles deslizantes y lienzos infinitos al estilo Figma para ajustar valores CSS. El complemento lee archivos fuente, reproduce elementos en un lienzo interactivo y proporciona controles para ajustes precisos con vista previa en vivo.

OpenClawRadar
PayClaw lanza un entorno de pruebas para el servidor MCP de pagos con tarjetas Visa virtuales.
Herramientas

PayClaw lanza un entorno de pruebas para el servidor MCP de pagos con tarjetas Visa virtuales.

PayClaw ha lanzado un entorno de pruebas (sandbox) para su servidor de pagos MCP, que incluye tarjetas virtuales Visa bloqueadas por comercio con caducidad de 15 minutos, aprobación humana por transacción protegida por MFA y declaración de intención antes de la emisión de la tarjeta. Las tarjetas de producción están programadas para el 4 de marzo.

OpenClawRadar