Dois Projetos de Pesquisa Desafiam a Aprendizagem por Imitação para Agentes Web

✍️ OpenClawRadar📅 Publicado: April 13, 2026🔗 Source
Dois Projetos de Pesquisa Desafiam a Aprendizagem por Imitação para Agentes Web
Ad

Duas Abordagens para o Treinamento de Agentes Web

Dois projetos de pesquisa desafiam a abordagem padrão de treinar agentes de IA apenas através da imitação de demonstrações de especialistas, focando especificamente em tarefas de preenchimento de formulários web onde os modelos devem navegar em sites reais, preencher campos, clicar em botões e enviar formulários.

Browser in the Loop: RL para Conclusão de Tarefas

O primeiro projeto, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), usa um modelo de 8 bilhões de parâmetros em um ciclo de feedback com um navegador real. Em vez de apenas imitar demonstrações de especialistas, o modelo gera planos de ação, os executa em formulários web ao vivo e aprende com o resultado.

O aprendizado por reforço converte tentativas quase perfeitas (onde todos os campos estão corretos, mas o envio falha) em sucessos reais. Os ganhos vêm não de preencher campos melhor, mas de aprender a cruzar a linha de chegada — algo que a imitação sozinha nunca otimizou.

Ad

Concentrate or Collapse: Desafios do RL com Modelos de Difusão

O segundo projeto, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), explora o que acontece quando os modelos não geram ações da esquerda para a direita. Modelos de linguagem de difusão refinam sequências inteiras de ações em paralelo, mas aplicar o mesmo RL que funciona para modelos autorregressivos faz com que esses modelos de difusão colapsem, com saídas degradando para incoerência.

Em 16 comparações controladas, o RL em nível de token melhorou apenas duas vezes. A solução exigiu repensar a otimização em nível de sequência, onde um método (ESPO) finalmente obteve sucesso para arquiteturas de difusão puras.

Implicações Principais

A pesquisa destaca que a maioria dos benchmarks de agentes web ainda avalia com base na similaridade textual com trajetórias de referência, em vez da conclusão real da tarefa. Esses projetos sugerem que o que parece correto no papel e o que realmente funciona em um navegador são problemas diferentes, e otimizar para o errado deixa desempenho na mesa.

Todos os 12 modelos treinados e seu pipeline foram disponibilizados como código aberto: Código em github.com/billy-enrizky/openbrowser-ai e modelos em huggingface.co/billyenrizky.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Provedor OpenClaw Mistral Quebrado Desde Atualização 2026.3.8, Comunidade Busca Alternativas
News

Provedor OpenClaw Mistral Quebrado Desde Atualização 2026.3.8, Comunidade Busca Alternativas

Usuários do OpenClaw relatam erros HTTP 422 persistentes com modelos Mistral desde a atualização 2026.3.8, sem correções nas versões subsequentes até a 2026.3.13. O problema afeta toda a funcionalidade relacionada ao Mistral, enquanto chamadas diretas à API funcionam normalmente.

OpenClawRadar
Manutentor do kernel Linux relata mudança súbita na qualidade de relatórios de bugs gerados por IA
News

Manutentor do kernel Linux relata mudança súbita na qualidade de relatórios de bugs gerados por IA

Greg Kroah-Hartman afirma que os relatórios de bugs gerados por IA para o kernel do Linux passaram de 'lixo de IA' para relatórios legítimos há cerca de um mês, com equipes de segurança de código aberto em diversos projetos observando a mesma mudança. A equipe do kernel está lidando com o aumento com ferramentas como o Sashiko para automação de revisão.

OpenClawRadar
DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda
News

DiLoCo Desacoplado: Treinamento Distribuído Resiliente Entre Data Centers com Baixa Largura de Banda

O Decoupled DiLoCO do Google DeepMind treina LLMs em centros de dados distantes usando WAN de 2-5 Gbps, com ilhas de computação auto-recuperáveis que isolam falhas de hardware sem degradar o desempenho de ML.

OpenClawRadar
Título do artigo: Visão Geral da IA do Google Rotula Falsamente Violinista Canadense como Criminoso Sexual, Processo Protocolado
News

Título do artigo: Visão Geral da IA do Google Rotula Falsamente Violinista Canadense como Criminoso Sexual, Processo Protocolado

Ashley MacIsaac processa Google por US$ 1,5 milhão após o AI Overview gerar afirmações falsas de que ele era um criminoso sexual condenado, levando ao cancelamento de um show.

OpenClawRadar