Deux projets de recherche remettent en cause l'apprentissage par imitation pour les agents web

Deux approches de l'entraînement des agents web
Deux projets de recherche remettent en question l'approche standard qui consiste à entraîner les agents d'IA uniquement par l'imitation de démonstrations d'experts, en se concentrant spécifiquement sur les tâches de remplissage de formulaires web où les modèles doivent naviguer sur des sites réels, remplir des champs, cliquer sur des boutons et soumettre des formulaires.
Browser in the Loop : L'apprentissage par renforcement pour l'achèvement des tâches
Le premier projet, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), utilise un modèle de 8 milliards de paramètres dans une boucle de rétroaction avec un navigateur réel. Au lieu de se contenter d'imiter les démonstrations d'experts, le modèle génère des plans d'action, les exécute sur des formulaires web en direct et apprend du résultat.
L'apprentissage par renforcement convertit les tentatives presque parfaites (où tous les champs sont corrects mais la soumission échoue) en véritables succès. Les gains ne proviennent pas d'un meilleur remplissage des champs, mais de l'apprentissage pour franchir la ligne d'arrivée — quelque chose que l'imitation seule n'a jamais optimisé.
Concentrate or Collapse : Les défis de l'apprentissage par renforcement avec les modèles de diffusion
Le second projet, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), explore ce qui se passe lorsque les modèles ne génèrent pas du tout les actions de gauche à droite. Les modèles de langage par diffusion affinent des séquences d'actions entières en parallèle, mais appliquer le même apprentissage par renforcement qui fonctionne pour les modèles autorégressifs fait s'effondrer ces modèles de diffusion, avec des sorties qui dégénèrent en incohérence.
Sur 16 comparaisons contrôlées, l'apprentissage par renforcement au niveau des jetons n'a amélioré les résultats que deux fois. La solution a nécessité de repenser l'optimisation au niveau de la séquence, où une méthode (ESPO) a finalement permis une percée pour les architectures de diffusion pure.
Implications clés
La recherche souligne que la plupart des benchmarks pour agents web évaluent encore la similarité textuelle avec les trajectoires de référence plutôt que l'achèvement réel des tâches. Ces projets suggèrent que ce qui semble correct sur le papier et ce qui fonctionne réellement dans un navigateur sont deux problèmes différents, et optimiser pour le mauvais laisse des performances sur la table.
Les 12 modèles entraînés et leur pipeline ont été rendus open source : Code sur github.com/billy-enrizky/openbrowser-ai et modèles sur huggingface.co/billyenrizky.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Devenir ingénieur IA à plein temps : ne plus toucher au code
Max Heyer décrit un workflow où les agents écrivent tout le code, lui se contente de lire les diffs, rédiger les spécifications et faire la relecture. La compétence qui compte est le goût — évaluer le code est plus difficile que le produire.

Anthropic double les limites de taux de Claude Code, signe un accord de calcul avec SpaceX
Les limites de taux sur cinq heures de Claude Code doublées pour les forfaits Pro/Max/Team/Enterprise, suppressions des réductions aux heures de pointe, et augmentation des limites de taux API pour les modèles Opus. SpaceX Colossus 1 ajoute plus de 300 MW de capacité (220 000 GPU NVIDIA) en un mois.

Anthropic lance Claude Code Channels pour l'intégration de messagerie
Anthropic a lancé Claude Code Channels, permettant aux développeurs d'envoyer des messages directs aux sessions Claude Code depuis Telegram ou Discord avec un accès complet aux outils incluant les modifications de fichiers, les exécutions de tests et les opérations git. Cette fonctionnalité nécessite un plan Anthropic payant et prend en charge deux plateformes, contre plus de 20 pour OpenClaw.

OpenClaw 2026.4.29 cassé – Revenez à la version 2026.2.6
La version 2026.4.29 d'OpenClaw est défectueuse : erreurs aléatoires, CLI lente, doubles réponses. Revenez à la version 2026.2.6 pour résoudre le problème.