Modelos Qwen Locales Logran Automatización de Navegadores con Planificación Paso a Paso y DOM Compacto

La Planificación Paso a Paso Supera los Fallos de la Planificación Previa
El desarrollador descubrió que pedir a los modelos que inventen un plan completo de múltiples pasos antes de ver el estado real de la página funciona en sitios familiares, pero falla rápidamente con elementos inesperados. Lo que funcionó mejor fue la planificación paso a paso, donde el modelo replanifica desde la instantánea actual del DOM en cada paso.
Flujo de Ejemplo en Ace Hardware
El flujo probado con Qwen 8B como planificador y 4B como ejecutor en Ace Hardware (un sitio para el que el modelo no tenía tareas previas) completó un flujo completo del carrito sin usar ningún modelo de visión. El enfoque paso a paso se veía así:
- Paso 1: ver cuadro de búsqueda → ESCRIBIR "cortadora de césped"
- Paso 2: ver resultados → HACER CLIC en Añadir al Carrito
- Paso 3: aparece el cajón → descartarlo
- Paso 4: carrito visible → HACER CLIC en Ver Carrito
- Paso 5: HECHO
La Representación Compacta del DOM Permite Modelos Pequeños
El modelo nunca ve HTML crudo ni capturas de pantalla, solo una representación semántica en tabla:
id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"
Esto permite que el ejecutor de 4B elija un ID de elemento de una lista corta. Los enfoques de visión consumen 2-3K tokens por captura de pantalla, fácilmente 50-100K+ para un flujo completo, mientras que las instantáneas compactas usan ~15K en total para la misma tarea.
El Manejo de Modales es Crítico para el Éxito
Después de cada clic, si el DOM crece repentinamente, el agente escanea patrones de descarte (cerrar, ×, no gracias, etc.) antes de planificar nuevamente. Esto solucionó muchos fallos que parecían ser "mal razonamiento" pero en realidad eran superposiciones ocultas.
El desarrollador señala tener curiosidad por saber si otros están viendo que la planificación paso a paso supera a la planificación previa una vez que los sitios se vuelven desconocidos.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Presentamos Lean Collab: Un Orquestador de Múltiples Agentes para Tareas de LLM de Larga Duración.
Lean Collab es un orquestador de código abierto diseñado para gestionar tareas de LLM de larga duración utilizando subagentes paralelos y coordinados.

0Latencia: Una Capa de Memoria Persistente para Agentes de IA a través de MCP
0Latency es un servidor MCP que añade memoria persistente a Claude y otros agentes de IA, almacenando recuerdos entre sesiones para evitar la pérdida de contexto. Funciona de forma nativa con Claude Desktop, Claude Code, claude.ai, GPT, Gemini, Cursor y cualquier agente compatible con MCP.

uimax-mcp: Servidor MCP gratuito para revisión y corrección automatizada de código frontend con Claude Code
uimax-mcp es un servidor MCP gratuito que automatiza la revisión y corrección de código frontend utilizando Claude Code. Con un solo comando, captura capturas de pantalla, ejecuta auditorías de Lighthouse y accesibilidad, escanea en busca de antipatrones y genera correcciones automatizadas.

Phantom: Un Agente de IA Persistente Construido con el SDK de Agente de Claude
Phantom es un proceso de código abierto para Bun/TypeScript que envuelve el SDK de Agente de Claude (Opus 4.6) con memoria vectorial persistente, un motor de auto-evolución y una interfaz de servidor MCP. Se ejecuta continuamente en su propia máquina virtual o con Docker Compose y se comunica a través de Slack.