Aprendizaje por Imitación vs RL: Nuevos Retos en Agentes Web

Dos Enfoques para el Entrenamiento de Agentes Web

Dos proyectos de investigación cuestionan el enfoque estándar de entrenar agentes de IA únicamente mediante la imitación de demostraciones expertas, centrándose específicamente en tareas de llenado de formularios web donde los modelos deben navegar por sitios web reales, completar campos, hacer clic en botones y enviar formularios.

Browser in the Loop: RL para la Finalización de Tareas

El primer proyecto, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), utiliza un modelo de 8 mil millones de parámetros en un ciclo de retroalimentación con un navegador real. En lugar de solo imitar demostraciones expertas, el modelo genera planes de acción, los ejecuta contra formularios web en vivo y aprende del resultado.

El aprendizaje por refuerzo convierte intentos casi perfectos (donde todos los campos son correctos pero el envío falla) en éxitos reales. Las ganancias no provienen de completar campos mejor, sino de aprender a cruzar la línea de meta, algo para lo que la imitación sola nunca optimizó.

Concentrate or Collapse: Desafíos del RL con Modelos de Difusión

El segundo proyecto, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), explora qué sucede cuando los modelos no generan acciones de izquierda a derecha en absoluto. Los modelos de lenguaje de difusión refinan secuencias completas de acciones en paralelo, pero aplicar el mismo RL que funciona para modelos autorregresivos hace que estos modelos de difusión colapsen, con salidas degradándose a incoherencia.

En 16 comparaciones controladas, el RL a nivel de token mejoró solo dos veces. La solución requirió repensar la optimización a nivel de secuencia, donde un método (ESPO) finalmente logró avances para arquitecturas de difusión pura.

Implicaciones Clave

La investigación destaca que la mayoría de los puntos de referencia para agentes web aún evalúan la similitud de texto con trayectorias de referencia en lugar de la finalización real de tareas. Estos proyectos sugieren que lo que parece correcto en papel y lo que realmente funciona en un navegador son problemas diferentes, y optimizar para el incorrecto deja rendimiento sobre la mesa.

Los 12 modelos entrenados y su pipeline han sido de código abierto: Código en github.com/billy-enrizky/openbrowser-ai y modelos en huggingface.co/billyenrizky.

📖 Read the full source: r/LocalLLaMA

Dos Proyectos de Investigación Desafían el Aprendizaje por Imitación para Agentes Web

Dos Enfoques para el Entrenamiento de Agentes Web

Browser in the Loop: RL para la Finalización de Tareas

Concentrate or Collapse: Desafíos del RL con Modelos de Difusión

Implicaciones Clave

👀 Ver también

Sakana AI lanza el laboratorio RSI: Mejora recursiva automática con modelos fundacionales

Ohio suspende exención fiscal para centros de datos: crecen presiones de costos de IA para empresas tecnológicas

Resultados AIME 2026: Modelos abiertos y cerrados superan el 90%

El Proyecto del Agente de IA Obsidian del Desarrollador se Vuelve Viral de la Noche a la Mañana