Qwen 8B & 4B: Browser-Automatisierung mit Schritt-für-Schritt-Planung

Schrittweise Planung überwindet Fehler bei vorabiger Planung

Der Entwickler stellte fest, dass das Anfordern von Modellen, einen vollständigen Mehrschrittplan zu erstellen, bevor der tatsächliche Seitenstatus sichtbar ist, auf bekannten Websites funktioniert, aber bei unerwarteten Elementen schnell versagt. Besser funktionierte die schrittweise Planung, bei der das Modell bei jedem Schritt basierend auf der aktuellen DOM-Momentaufnahme neu plant.

Beispielablauf auf Ace Hardware

Der getestete Ablauf mit Qwen 8B als Planer und 4B als Ausführer auf Ace Hardware (eine Website, für die das Modell keine vorherige Aufgabe hatte) schloss einen vollständigen Warenkorb-Ablauf ohne Verwendung eines Vision-Modells ab. Der schrittweise Ansatz sah so aus:

Schritt 1: Suchfeld sehen → TYP "Rasenmäher"
Schritt 2: Ergebnisse sehen → KLICK In den Warenkorb
Schritt 3: Schublade erscheint → schließen
Schritt 4: Warenkorb sichtbar → KLICK Warenkorb ansehen
Schritt 5: FERTIG

Kompakte DOM-Darstellung ermöglicht kleine Modelle

Das Modell sieht niemals rohes HTML oder Screenshots – nur eine semantische Tabellendarstellung:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Dies ermöglicht es dem 4B-Ausführer, eine Element-ID aus einer kurzen Liste auszuwählen. Vision-Ansätze verbrauchen 2-3K Token pro Screenshot, leicht 50-100K+ für einen vollständigen Ablauf, während kompakte Momentaufnahmen insgesamt ~15K für dieselbe Aufgabe verwenden.

Modale Handhabung entscheidend für Erfolg

Nach jedem Klick, wenn der DOM plötzlich wächst, sucht der Agent nach Schließmustern (schließen, ×, nein danke, usw.), bevor er erneut plant. Dies behebt viele Fehler, die wie "schlechte Schlussfolgerungen" erschienen, aber tatsächlich versteckte Overlays waren.

Der Entwickler merkt an, dass er neugierig ist, ob andere beobachten, dass schrittweise Planung vorabige Planung übertrifft, sobald Websites unbekannt werden.

📖 Read the full source: r/LocalLLaMA

Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.

Schrittweise Planung überwindet Fehler bei vorabiger Planung

Beispielablauf auf Ace Hardware

Kompakte DOM-Darstellung ermöglicht kleine Modelle

Modale Handhabung entscheidend für Erfolg

👀 Siehe auch

Claude Counter: Android-App verfolgt Claude-Nutzungslimits mit Echtzeit-Benachrichtigungen

Claude Code's Read Tool reduziert Bilder stillschweigend und verursacht Halluzinationen

Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks

NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung