Qwen 8B & 4B : Automatisation navigateur avec planification étape par étape

La planification étape par étape surmonte les échecs de la planification prédéfinie

Le développeur a découvert que demander aux modèles d'inventer un plan multi-étapes complet avant de voir l'état réel de la page fonctionne sur des sites familiers mais échoue rapidement face à des éléments inattendus. Ce qui a mieux fonctionné était la planification étape par étape où le modèle replanifie à partir de l'instantané DOM actuel à chaque étape.

Exemple de flux sur Ace Hardware

Le flux testé avec Qwen 8B comme planificateur et 4B comme exécuteur sur Ace Hardware (un site pour lequel le modèle n'avait aucune tâche préalable) a complété un flux complet de panier sans aucune utilisation de modèle de vision. L'approche étape par étape ressemblait à ceci :

Étape 1 : voir la boîte de recherche → TAPER "tondeuse à gazon"
Étape 2 : voir les résultats → CLIQUER Ajouter au panier
Étape 3 : un tiroir apparaît → le fermer
Étape 4 : panier visible → CLIQUER Voir le panier
Étape 5 : TERMINÉ

La représentation DOM compacte permet aux petits modèles

Le modèle ne voit jamais le HTML brut ni les captures d'écran—juste une représentation tabulaire sémantique :

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Cela permet à l'exécuteur 4B de choisir un ID d'élément dans une courte liste. Les approches basées sur la vision consomment 2-3K tokens par capture d'écran, facilement 50-100K+ pour un flux complet, tandis que les instantanés compacts utilisent ~15K au total pour la même tâche.

La gestion des modales est cruciale pour le succès

Après chaque clic, si le DOM grossit soudainement, l'agent recherche des modèles de fermeture (fermer, ×, non merci, etc.) avant de replanifier. Cela a corrigé de nombreux échecs qui semblaient être de "mauvais raisonnements" mais étaient en réalité des superpositions cachées.

Le développeur note être curieux de savoir si d'autres observent que la planification étape par étape surpasse la planification prédéfinie une fois que les sites deviennent inconnus.

📖 Read the full source: r/LocalLLaMA

Les modèles Qwen locaux réalisent l'automatisation des navigateurs grâce à une planification étape par étape et un DOM compact.

La planification étape par étape surmonte les échecs de la planification prédéfinie

Exemple de flux sur Ace Hardware

La représentation DOM compacte permet aux petits modèles

La gestion des modales est cruciale pour le succès

👀 See Also

Protocole RUNE : Sauvegardez la mémoire des sessions IA sur toutes les plateformes

Mode Collaborateur Claude expliqué : exécution de tâches au niveau des fichiers vs modes chat et code

Hollow AgentOS réduit l'utilisation de tokens de code Claude de 68,5 % grâce à un OS natif JSON pour les agents IA.

Antigravité 2.0 domine le benchmark architectural 3D OpenSCAD – ModelRift teste 6 LLM sur le Panthéon