Limitações da Aprendizagem por Imitação para Agentes Web

Duas Abordagens para o Treinamento de Agentes Web

Dois projetos de pesquisa desafiam a abordagem padrão de treinar agentes de IA apenas através da imitação de demonstrações de especialistas, focando especificamente em tarefas de preenchimento de formulários web onde os modelos devem navegar em sites reais, preencher campos, clicar em botões e enviar formulários.

Browser in the Loop: RL para Conclusão de Tarefas

O primeiro projeto, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), usa um modelo de 8 bilhões de parâmetros em um ciclo de feedback com um navegador real. Em vez de apenas imitar demonstrações de especialistas, o modelo gera planos de ação, os executa em formulários web ao vivo e aprende com o resultado.

O aprendizado por reforço converte tentativas quase perfeitas (onde todos os campos estão corretos, mas o envio falha) em sucessos reais. Os ganhos vêm não de preencher campos melhor, mas de aprender a cruzar a linha de chegada — algo que a imitação sozinha nunca otimizou.

Concentrate or Collapse: Desafios do RL com Modelos de Difusão

O segundo projeto, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), explora o que acontece quando os modelos não geram ações da esquerda para a direita. Modelos de linguagem de difusão refinam sequências inteiras de ações em paralelo, mas aplicar o mesmo RL que funciona para modelos autorregressivos faz com que esses modelos de difusão colapsem, com saídas degradando para incoerência.

Em 16 comparações controladas, o RL em nível de token melhorou apenas duas vezes. A solução exigiu repensar a otimização em nível de sequência, onde um método (ESPO) finalmente obteve sucesso para arquiteturas de difusão puras.

Implicações Principais

A pesquisa destaca que a maioria dos benchmarks de agentes web ainda avalia com base na similaridade textual com trajetórias de referência, em vez da conclusão real da tarefa. Esses projetos sugerem que o que parece correto no papel e o que realmente funciona em um navegador são problemas diferentes, e otimizar para o errado deixa desempenho na mesa.

Todos os 12 modelos treinados e seu pipeline foram disponibilizados como código aberto: Código em github.com/billy-enrizky/openbrowser-ai e modelos em huggingface.co/billyenrizky.

📖 Read the full source: r/LocalLLaMA