Agents web : limites de l'apprentissage par imitation, solutions RL

Deux approches de l'entraînement des agents web

Deux projets de recherche remettent en question l'approche standard qui consiste à entraîner les agents d'IA uniquement par l'imitation de démonstrations d'experts, en se concentrant spécifiquement sur les tâches de remplissage de formulaires web où les modèles doivent naviguer sur des sites réels, remplir des champs, cliquer sur des boutons et soumettre des formulaires.

Browser in the Loop : L'apprentissage par renforcement pour l'achèvement des tâches

Le premier projet, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), utilise un modèle de 8 milliards de paramètres dans une boucle de rétroaction avec un navigateur réel. Au lieu de se contenter d'imiter les démonstrations d'experts, le modèle génère des plans d'action, les exécute sur des formulaires web en direct et apprend du résultat.

L'apprentissage par renforcement convertit les tentatives presque parfaites (où tous les champs sont corrects mais la soumission échoue) en véritables succès. Les gains ne proviennent pas d'un meilleur remplissage des champs, mais de l'apprentissage pour franchir la ligne d'arrivée — quelque chose que l'imitation seule n'a jamais optimisé.

Concentrate or Collapse : Les défis de l'apprentissage par renforcement avec les modèles de diffusion

Le second projet, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), explore ce qui se passe lorsque les modèles ne génèrent pas du tout les actions de gauche à droite. Les modèles de langage par diffusion affinent des séquences d'actions entières en parallèle, mais appliquer le même apprentissage par renforcement qui fonctionne pour les modèles autorégressifs fait s'effondrer ces modèles de diffusion, avec des sorties qui dégénèrent en incohérence.

Sur 16 comparaisons contrôlées, l'apprentissage par renforcement au niveau des jetons n'a amélioré les résultats que deux fois. La solution a nécessité de repenser l'optimisation au niveau de la séquence, où une méthode (ESPO) a finalement permis une percée pour les architectures de diffusion pure.

Implications clés

La recherche souligne que la plupart des benchmarks pour agents web évaluent encore la similarité textuelle avec les trajectoires de référence plutôt que l'achèvement réel des tâches. Ces projets suggèrent que ce qui semble correct sur le papier et ce qui fonctionne réellement dans un navigateur sont deux problèmes différents, et optimiser pour le mauvais laisse des performances sur la table.

Les 12 modèles entraînés et leur pipeline ont été rendus open source : Code sur github.com/billy-enrizky/openbrowser-ai et modèles sur huggingface.co/billyenrizky.

📖 Read the full source: r/LocalLLaMA

Deux projets de recherche remettent en cause l'apprentissage par imitation pour les agents web

Deux approches de l'entraînement des agents web

Browser in the Loop : L'apprentissage par renforcement pour l'achèvement des tâches

Concentrate or Collapse : Les défis de l'apprentissage par renforcement avec les modèles de diffusion

Implications clés

👀 See Also

1,2B de modèle local bat 1T de clouds au poker : l'agression l'emporte sur la connaissance en format push-or-fold

DMA retarde Siri AI sur iOS 27 et iPadOS 27 dans l'UE — Disponible sur macOS et visionOS

Système d'animal de compagnie caché découvert dans la fuite du code Claude : mécaniques de gacha avec animations ASCII

Titre de l'article : Le mythe de Claude d'Anthropic : marketing de la peur ou risque réel ?