Modelos Qwen Locais Alcançam Automação de Navegador com Planejamento Passo a Passo e DOM Compacto

Planejamento Passo a Passo Supera Falhas do Planejamento Antecipado
O desenvolvedor descobriu que pedir aos modelos para inventar um plano multi-etapas completo antes de ver o estado real da página funciona em sites familiares, mas falha rapidamente com elementos inesperados. O que funcionou melhor foi o planejamento passo a passo, onde o modelo replaneja a partir do snapshot DOM atual em cada etapa.
Exemplo de Fluxo na Ace Hardware
O fluxo testado com Qwen 8B como planejador e 4B como executor na Ace Hardware (um site para o qual o modelo não tinha tarefa prévia) completou um fluxo completo de carrinho sem uso de modelo de visão. A abordagem passo a passo foi assim:
- Etapa 1: ver caixa de busca → DIGITAR "cortador de grama"
- Etapa 2: ver resultados → CLICAR Adicionar ao Carrinho
- Etapa 3: gaveta aparece → dispensá-la
- Etapa 4: carrinho visível → CLICAR Ver Carrinho
- Etapa 5: CONCLUÍDO
Representação DOM Compacta Permite Modelos Pequenos
O modelo nunca vê HTML bruto ou capturas de tela—apenas uma representação de tabela semântica:
id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"
Isso permite que o executor 4B escolha um ID de elemento de uma lista curta. Abordagens de visão consomem 2-3K tokens por captura de tela, facilmente 50-100K+ para um fluxo completo, enquanto snapshots compactos usam ~15K no total para a mesma tarefa.
Manipulação de Modais Crítica para o Sucesso
Após cada clique, se o DOM crescer subitamente, o agente procura por padrões de dispensar (fechar, ×, não obrigado, etc.) antes de planejar novamente. Isso corrigiu muitas falhas que pareciam ser "raciocínio ruim" mas eram na verdade sobreposições ocultas.
O desenvolvedor observa estar curioso se outros estão vendo o planejamento passo a passo superar o planejamento antecipado quando os sites se tornam desconhecidos.
📖 Read the full source: r/LocalLLaMA
👀 See Also

SIDJUA V1.0: Plataforma de Governança Autônoma para Agentes de IA
SIDJUA V1.0 é uma plataforma de governança gratuita e auto-hospedada para agentes de IA que roda em Docker, incluindo Raspberry Pi. Ela fornece pontos de verificação obrigatórios para tarefas de agentes, armazenamento criptografado de credenciais, isolamento de rede e controles granulares de orçamento.

AI Team OS: Camada de Organização Autônoma para Claude Code
O AI Team OS é uma camada de sistema operacional para o Claude Code que cria fluxos de trabalho autônomos onde o sistema continua trabalhando sem esperar por comandos do usuário. Ele inclui 22 modelos de agentes especializados, mais de 40 ferramentas MCP e funciona inteiramente dentro da assinatura do Claude Code sem custos de API externos.

Chamada de Agente: Deixe o Claude Code Participar de Chamadas do Google Meet, Zoom ou Teams como um Colega de Equipe
O AgentCall.dev conecta sua sessão existente do Claude Code, Codex ou Cursor ao Google Meet, Teams ou Zoom com voz, compartilhamento de tela e chat — sem captura de área de trabalho, sem dados de terceiros no modo direto.

A Abordagem do Cursor para Busca Rápida de Regex para Agentes de IA
O Cursor está desenvolvendo uma busca de regex indexada para resolver problemas de desempenho em grandes monorepos, onde o ripgrep pode levar mais de 15 segundos, utilizando índices invertidos com n-gramas baseados na pesquisa de 1993 de Zobel, Moffat e Sacks-Davis.