Modelos Qwen Locales Logran Automatización de Navegadores con Planificación Paso a Paso y DOM Compacto

✍️ OpenClawRadar📅 Publicado: 17 de marzo de 2026🔗 Source
Modelos Qwen Locales Logran Automatización de Navegadores con Planificación Paso a Paso y DOM Compacto
Ad

La Planificación Paso a Paso Supera los Fallos de la Planificación Previa

El desarrollador descubrió que pedir a los modelos que inventen un plan completo de múltiples pasos antes de ver el estado real de la página funciona en sitios familiares, pero falla rápidamente con elementos inesperados. Lo que funcionó mejor fue la planificación paso a paso, donde el modelo replanifica desde la instantánea actual del DOM en cada paso.

Flujo de Ejemplo en Ace Hardware

El flujo probado con Qwen 8B como planificador y 4B como ejecutor en Ace Hardware (un sitio para el que el modelo no tenía tareas previas) completó un flujo completo del carrito sin usar ningún modelo de visión. El enfoque paso a paso se veía así:

  • Paso 1: ver cuadro de búsqueda → ESCRIBIR "cortadora de césped"
  • Paso 2: ver resultados → HACER CLIC en Añadir al Carrito
  • Paso 3: aparece el cajón → descartarlo
  • Paso 4: carrito visible → HACER CLIC en Ver Carrito
  • Paso 5: HECHO
Ad

La Representación Compacta del DOM Permite Modelos Pequeños

El modelo nunca ve HTML crudo ni capturas de pantalla, solo una representación semántica en tabla:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Esto permite que el ejecutor de 4B elija un ID de elemento de una lista corta. Los enfoques de visión consumen 2-3K tokens por captura de pantalla, fácilmente 50-100K+ para un flujo completo, mientras que las instantáneas compactas usan ~15K en total para la misma tarea.

El Manejo de Modales es Crítico para el Éxito

Después de cada clic, si el DOM crece repentinamente, el agente escanea patrones de descarte (cerrar, ×, no gracias, etc.) antes de planificar nuevamente. Esto solucionó muchos fallos que parecían ser "mal razonamiento" pero en realidad eran superposiciones ocultas.

El desarrollador señala tener curiosidad por saber si otros están viendo que la planificación paso a paso supera a la planificación previa una vez que los sitios se vuelven desconocidos.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Presentamos Lean Collab: Un Orquestador de Múltiples Agentes para Tareas de LLM de Larga Duración.
Herramientas

Presentamos Lean Collab: Un Orquestador de Múltiples Agentes para Tareas de LLM de Larga Duración.

Lean Collab es un orquestador de código abierto diseñado para gestionar tareas de LLM de larga duración utilizando subagentes paralelos y coordinados.

OpenClawRadar
0Latencia: Una Capa de Memoria Persistente para Agentes de IA a través de MCP
Herramientas

0Latencia: Una Capa de Memoria Persistente para Agentes de IA a través de MCP

0Latency es un servidor MCP que añade memoria persistente a Claude y otros agentes de IA, almacenando recuerdos entre sesiones para evitar la pérdida de contexto. Funciona de forma nativa con Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor y cualquier agente compatible con MCP.

OpenClawRadar
uimax-mcp: Servidor MCP gratuito para revisión y corrección automatizada de código frontend con Claude Code
Herramientas

uimax-mcp: Servidor MCP gratuito para revisión y corrección automatizada de código frontend con Claude Code

uimax-mcp es un servidor MCP gratuito que automatiza la revisión y corrección de código frontend utilizando Claude Code. Con un solo comando, captura capturas de pantalla, ejecuta auditorías de Lighthouse y accesibilidad, escanea en busca de antipatrones y genera correcciones automatizadas.

OpenClawRadar
Phantom: Un Agente de IA Persistente Construido con el SDK de Agente de Claude
Herramientas

Phantom: Un Agente de IA Persistente Construido con el SDK de Agente de Claude

Phantom es un proceso de código abierto para Bun/TypeScript que envuelve el SDK de Agente de Claude (Opus 4.6) con memoria vectorial persistente, un motor de auto-evolución y una interfaz de servidor MCP. Se ejecuta continuamente en su propia máquina virtual o con Docker Compose y se comunica a través de Slack.

OpenClawRadar