Qwen 8B e 4B Automatizam Navegador com DOM Compacto

Planejamento Passo a Passo Supera Falhas do Planejamento Antecipado

O desenvolvedor descobriu que pedir aos modelos para inventar um plano multi-etapas completo antes de ver o estado real da página funciona em sites familiares, mas falha rapidamente com elementos inesperados. O que funcionou melhor foi o planejamento passo a passo, onde o modelo replaneja a partir do snapshot DOM atual em cada etapa.

Exemplo de Fluxo na Ace Hardware

O fluxo testado com Qwen 8B como planejador e 4B como executor na Ace Hardware (um site para o qual o modelo não tinha tarefa prévia) completou um fluxo completo de carrinho sem uso de modelo de visão. A abordagem passo a passo foi assim:

Etapa 1: ver caixa de busca → DIGITAR "cortador de grama"
Etapa 2: ver resultados → CLICAR Adicionar ao Carrinho
Etapa 3: gaveta aparece → dispensá-la
Etapa 4: carrinho visível → CLICAR Ver Carrinho
Etapa 5: CONCLUÍDO

Representação DOM Compacta Permite Modelos Pequenos

O modelo nunca vê HTML bruto ou capturas de tela—apenas uma representação de tabela semântica:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Isso permite que o executor 4B escolha um ID de elemento de uma lista curta. Abordagens de visão consomem 2-3K tokens por captura de tela, facilmente 50-100K+ para um fluxo completo, enquanto snapshots compactos usam ~15K no total para a mesma tarefa.

Manipulação de Modais Crítica para o Sucesso

Após cada clique, se o DOM crescer subitamente, o agente procura por padrões de dispensar (fechar, ×, não obrigado, etc.) antes de planejar novamente. Isso corrigiu muitas falhas que pareciam ser "raciocínio ruim" mas eram na verdade sobreposições ocultas.

O desenvolvedor observa estar curioso se outros estão vendo o planejamento passo a passo superar o planejamento antecipado quando os sites se tornam desconhecidos.

📖 Read the full source: r/LocalLLaMA

Modelos Qwen Locais Alcançam Automação de Navegador com Planejamento Passo a Passo e DOM Compacto

Planejamento Passo a Passo Supera Falhas do Planejamento Antecipado

Exemplo de Fluxo na Ace Hardware

Representação DOM Compacta Permite Modelos Pequenos

Manipulação de Modais Crítica para o Sucesso

👀 See Also

Flavian: Um Framework de Desenvolvimento WordPress com 24 Agentes de Código Claude Especializados

Ponte IDE Claude de Código Aberto Conecta Dispatch, Aplicativo Desktop e Claude Code

Sistema de Memória Bioinspirado para LLMs Locais: Implementação de LTP e Oblivion Seletivo

js-notepad: Um Bloco de Notas Programável com Servidor MCP Integrado para Claude Code