Qwen 8B y 4B Logran Automatización de Navegadores: Planificación Paso a Paso y DOM Compacto

La Planificación Paso a Paso Supera los Fallos de la Planificación Previa

El desarrollador descubrió que pedir a los modelos que inventen un plan completo de múltiples pasos antes de ver el estado real de la página funciona en sitios familiares, pero falla rápidamente con elementos inesperados. Lo que funcionó mejor fue la planificación paso a paso, donde el modelo replanifica desde la instantánea actual del DOM en cada paso.

Flujo de Ejemplo en Ace Hardware

El flujo probado con Qwen 8B como planificador y 4B como ejecutor en Ace Hardware (un sitio para el que el modelo no tenía tareas previas) completó un flujo completo del carrito sin usar ningún modelo de visión. El enfoque paso a paso se veía así:

Paso 1: ver cuadro de búsqueda → ESCRIBIR "cortadora de césped"
Paso 2: ver resultados → HACER CLIC en Añadir al Carrito
Paso 3: aparece el cajón → descartarlo
Paso 4: carrito visible → HACER CLIC en Ver Carrito
Paso 5: HECHO

La Representación Compacta del DOM Permite Modelos Pequeños

El modelo nunca ve HTML crudo ni capturas de pantalla, solo una representación semántica en tabla:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Esto permite que el ejecutor de 4B elija un ID de elemento de una lista corta. Los enfoques de visión consumen 2-3K tokens por captura de pantalla, fácilmente 50-100K+ para un flujo completo, mientras que las instantáneas compactas usan ~15K en total para la misma tarea.

El Manejo de Modales es Crítico para el Éxito

Después de cada clic, si el DOM crece repentinamente, el agente escanea patrones de descarte (cerrar, ×, no gracias, etc.) antes de planificar nuevamente. Esto solucionó muchos fallos que parecían ser "mal razonamiento" pero en realidad eran superposiciones ocultas.

El desarrollador señala tener curiosidad por saber si otros están viendo que la planificación paso a paso supera a la planificación previa una vez que los sitios se vuelven desconocidos.

📖 Read the full source: r/LocalLLaMA

Modelos Qwen Locales Logran Automatización de Navegadores con Planificación Paso a Paso y DOM Compacto

La Planificación Paso a Paso Supera los Fallos de la Planificación Previa

Flujo de Ejemplo en Ace Hardware

La Representación Compacta del DOM Permite Modelos Pequeños

El Manejo de Modales es Crítico para el Éxito

👀 Ver también

Memtrace: Memoria persistente y consciente del tiempo para agentes de código Claude

Claude AI creó un visualizador de datos OVNI con datos gubernamentales en horas

El complemento de código abierto de Claude genera sintonizadores visuales interactivos con vista previa en vivo.

PayClaw lanza un entorno de pruebas para el servidor MCP de pagos con tarjetas Visa virtuales.