Dos Proyectos de Investigación Desafían el Aprendizaje por Imitación para Agentes Web

Dos Enfoques para el Entrenamiento de Agentes Web
Dos proyectos de investigación cuestionan el enfoque estándar de entrenar agentes de IA únicamente mediante la imitación de demostraciones expertas, centrándose específicamente en tareas de llenado de formularios web donde los modelos deben navegar por sitios web reales, completar campos, hacer clic en botones y enviar formularios.
Browser in the Loop: RL para la Finalización de Tareas
El primer proyecto, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), utiliza un modelo de 8 mil millones de parámetros en un ciclo de retroalimentación con un navegador real. En lugar de solo imitar demostraciones expertas, el modelo genera planes de acción, los ejecuta contra formularios web en vivo y aprende del resultado.
El aprendizaje por refuerzo convierte intentos casi perfectos (donde todos los campos son correctos pero el envío falla) en éxitos reales. Las ganancias no provienen de completar campos mejor, sino de aprender a cruzar la línea de meta, algo para lo que la imitación sola nunca optimizó.
Concentrate or Collapse: Desafíos del RL con Modelos de Difusión
El segundo proyecto, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), explora qué sucede cuando los modelos no generan acciones de izquierda a derecha en absoluto. Los modelos de lenguaje de difusión refinan secuencias completas de acciones en paralelo, pero aplicar el mismo RL que funciona para modelos autorregresivos hace que estos modelos de difusión colapsen, con salidas degradándose a incoherencia.
En 16 comparaciones controladas, el RL a nivel de token mejoró solo dos veces. La solución requirió repensar la optimización a nivel de secuencia, donde un método (ESPO) finalmente logró avances para arquitecturas de difusión pura.
Implicaciones Clave
La investigación destaca que la mayoría de los puntos de referencia para agentes web aún evalúan la similitud de texto con trayectorias de referencia en lugar de la finalización real de tareas. Estos proyectos sugieren que lo que parece correcto en papel y lo que realmente funciona en un navegador son problemas diferentes, y optimizar para el incorrecto deja rendimiento sobre la mesa.
Los 12 modelos entrenados y su pipeline han sido de código abierto: Código en github.com/billy-enrizky/openbrowser-ai y modelos en huggingface.co/billyenrizky.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Costos por Hora en el Mundo Real para Equipos de Agentes de IA de Larga Duración
Un desarrollador comparte los costos reales por hora para equipos de agentes de IA que ejecutan sesiones de más de 5 horas con acceso completo a Linux, navegador y herramientas. Los agentes de programación cuestan $10-$60/hora, los agentes de marketing $10-$30/hora y los agentes de back-office $5-$15/hora.

Claude Opus 4.5 y Sonnet 4.5 se eliminaron de la selección de modelos, requieren un indicador de lanzamiento.
Claude Opus 4.5 y Sonnet 4.5 ya no están disponibles en el menú de selección de /model durante las sesiones. Los usuarios ahora deben iniciar sesiones con el indicador --model especificando el ID completo del modelo para acceder a estas versiones anteriores.

Claude Opus 4.6 bloquea el flujo de trabajo de la competencia de Kaggle para la revisión de código.
Un desarrollador informa que Claude Opus 4.6 ahora está bloqueando flujos de trabajo legítimos de competencias de Kaggle, donde Claude audita trazas de razonamiento para la validación de datos de entrenamiento SFT. El usuario estaba trabajando en el NVIDIA Nemotron Reasoning Challenge cuando los filtros de seguridad marcaron ejemplos de cifrado por sustitución.

Claude Code en la Web: Reporte de Interrupción Parcial
Una actualización automática de estado de r/ClaudeAI reporta una interrupción parcial para Claude Code en la web a partir del 2026-05-09T23:33:21.000Z. Consulta la página de estado oficial y el megahilo comunitario para obtener actualizaciones.