Les modèles Qwen locaux réalisent l'automatisation des navigateurs grâce à une planification étape par étape et un DOM compact.

✍️ OpenClawRadar📅 Publié: March 17, 2026🔗 Source
Les modèles Qwen locaux réalisent l'automatisation des navigateurs grâce à une planification étape par étape et un DOM compact.
Ad

La planification étape par étape surmonte les échecs de la planification prédéfinie

Le développeur a découvert que demander aux modèles d'inventer un plan multi-étapes complet avant de voir l'état réel de la page fonctionne sur des sites familiers mais échoue rapidement face à des éléments inattendus. Ce qui a mieux fonctionné était la planification étape par étape où le modèle replanifie à partir de l'instantané DOM actuel à chaque étape.

Exemple de flux sur Ace Hardware

Le flux testé avec Qwen 8B comme planificateur et 4B comme exécuteur sur Ace Hardware (un site pour lequel le modèle n'avait aucune tâche préalable) a complété un flux complet de panier sans aucune utilisation de modèle de vision. L'approche étape par étape ressemblait à ceci :

  • Étape 1 : voir la boîte de recherche → TAPER "tondeuse à gazon"
  • Étape 2 : voir les résultats → CLIQUER Ajouter au panier
  • Étape 3 : un tiroir apparaît → le fermer
  • Étape 4 : panier visible → CLIQUER Voir le panier
  • Étape 5 : TERMINÉ
Ad

La représentation DOM compacte permet aux petits modèles

Le modèle ne voit jamais le HTML brut ni les captures d'écran—juste une représentation tabulaire sémantique :

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Cela permet à l'exécuteur 4B de choisir un ID d'élément dans une courte liste. Les approches basées sur la vision consomment 2-3K tokens par capture d'écran, facilement 50-100K+ pour un flux complet, tandis que les instantanés compacts utilisent ~15K au total pour la même tâche.

La gestion des modales est cruciale pour le succès

Après chaque clic, si le DOM grossit soudainement, l'agent recherche des modèles de fermeture (fermer, ×, non merci, etc.) avant de replanifier. Cela a corrigé de nombreux échecs qui semblaient être de "mauvais raisonnements" mais étaient en réalité des superpositions cachées.

Le développeur note être curieux de savoir si d'autres observent que la planification étape par étape surpasse la planification prédéfinie une fois que les sites deviennent inconnus.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

SkillMesh : Routeur compatible MCP pour les grands catalogues d'outils réduit la taille du contexte de 70 %
Tools

SkillMesh : Routeur compatible MCP pour les grands catalogues d'outils réduit la taille du contexte de 70 %

SkillMesh est un routeur compatible MCP qui récupère uniquement les cartes d'expert pertinentes pour les requêtes des agents IA, réduisant la taille du contexte de 70 % et améliorant la sélection d'outils. Il prend en charge Claude via un serveur MCP, des bundles de compétences Codex et des schémas de fonction de style OpenAI.

OpenClawRadar
Application iOS Hyper : Enregistreur vocal avec transcription en temps réel et extraction d'actions
Tools

Application iOS Hyper : Enregistreur vocal avec transcription en temps réel et extraction d'actions

Hyper est une application d'enregistrement vocal iOS qui retranscrit les conversations en temps réel, fournit des résumés et des points d'action, et permet des requêtes en plein milieu d'une conversation via la détection de mot d'activation. Elle est conçue pour les réunions non structurées comme les entretiens individuels, les discussions informelles et les points quotidiens.

OpenClawRadar
Création d'un RAG agentic pour Obsidian avec Claude et d'un harnais d'évaluation pour détecter les hallucinations
Tools

Création d'un RAG agentic pour Obsidian avec Claude et d'un harnais d'évaluation pour détecter les hallucinations

Un développeur a construit un système RAG agentique sur un coffre Obsidian pour permettre à Claude de répondre à des questions issues de livres d'ingénierie, puis a créé un harnais d'évaluation utilisant Claude Sonnet comme juge pour détecter quand l'agent avait tort avec assurance. Des itérations de la grille d'évaluation ont amélioré l'accord juge-humain de 39 % à 94 %.

OpenClawRadar
Crochet de PreToolUse Résout le Problème de Plantage d'Image de Code Claude
Tools

Crochet de PreToolUse Résout le Problème de Plantage d'Image de Code Claude

Un développeur a créé un crochet PreToolUse qui intercepte les appels de lecture de Claude Code sur les images, les convertit de manière sécurisée et les relaie via un sous-processus Haiku pour éviter les plantages d'erreur API 400 causés par des images problématiques.

OpenClawRadar