Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.

✍️ OpenClawRadar📅 Veröffentlicht: 17. März 2026🔗 Source
Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.
Ad

Schrittweise Planung überwindet Fehler bei vorabiger Planung

Der Entwickler stellte fest, dass das Anfordern von Modellen, einen vollständigen Mehrschrittplan zu erstellen, bevor der tatsächliche Seitenstatus sichtbar ist, auf bekannten Websites funktioniert, aber bei unerwarteten Elementen schnell versagt. Besser funktionierte die schrittweise Planung, bei der das Modell bei jedem Schritt basierend auf der aktuellen DOM-Momentaufnahme neu plant.

Beispielablauf auf Ace Hardware

Der getestete Ablauf mit Qwen 8B als Planer und 4B als Ausführer auf Ace Hardware (eine Website, für die das Modell keine vorherige Aufgabe hatte) schloss einen vollständigen Warenkorb-Ablauf ohne Verwendung eines Vision-Modells ab. Der schrittweise Ansatz sah so aus:

  • Schritt 1: Suchfeld sehen → TYP "Rasenmäher"
  • Schritt 2: Ergebnisse sehen → KLICK In den Warenkorb
  • Schritt 3: Schublade erscheint → schließen
  • Schritt 4: Warenkorb sichtbar → KLICK Warenkorb ansehen
  • Schritt 5: FERTIG
Ad

Kompakte DOM-Darstellung ermöglicht kleine Modelle

Das Modell sieht niemals rohes HTML oder Screenshots – nur eine semantische Tabellendarstellung:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

Dies ermöglicht es dem 4B-Ausführer, eine Element-ID aus einer kurzen Liste auszuwählen. Vision-Ansätze verbrauchen 2-3K Token pro Screenshot, leicht 50-100K+ für einen vollständigen Ablauf, während kompakte Momentaufnahmen insgesamt ~15K für dieselbe Aufgabe verwenden.

Modale Handhabung entscheidend für Erfolg

Nach jedem Klick, wenn der DOM plötzlich wächst, sucht der Agent nach Schließmustern (schließen, ×, nein danke, usw.), bevor er erneut plant. Dies behebt viele Fehler, die wie "schlechte Schlussfolgerungen" erschienen, aber tatsächlich versteckte Overlays waren.

Der Entwickler merkt an, dass er neugierig ist, ob andere beobachten, dass schrittweise Planung vorabige Planung übertrifft, sobald Websites unbekannt werden.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Counter: Android-App verfolgt Claude-Nutzungslimits mit Echtzeit-Benachrichtigungen
Werkzeuge

Claude Counter: Android-App verfolgt Claude-Nutzungslimits mit Echtzeit-Benachrichtigungen

Ein Entwickler hat Claude Counter erstellt, eine kostenlose Android-App, die die API von Claude abfragt, um Live-Sitzungs- und wöchentliche Nutzungslimits anzuzeigen. Die App zeigt Fortschrittsbalken, bietet umfangreiche Benachrichtigungen mit verbleibenden Prozentsätzen und warnt, wenn Limits zurückgesetzt werden.

OpenClawRadar
Claude Code's Read Tool reduziert Bilder stillschweigend und verursacht Halluzinationen
Werkzeuge

Claude Code's Read Tool reduziert Bilder stillschweigend und verursacht Halluzinationen

Das `read`-Tool von Claude Code skaliert Bilder stillschweigend herunter, bevor das Modell sie sieht, was zu verschlechterter Ausgabe und unerkannten Halluzinationen beim Extrahieren von Text aus Screenshots führt.

OpenClawRadar
Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks
Werkzeuge

Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks

Clawdex ist ein Verzeichnis, das 18 OpenClaw-bezogene Projekte in drei Stufen auflistet, mit Daten zu Sternen, Programmiersprache und Kategorie-Tags. Das Projekt ist PR-gesteuert, was bedeutet, dass Mitwirkende das Repo forken, eine YAML-Datei in /src/data/projects/ hinzufügen und einen Pull-Request öffnen müssen.

OpenClawRadar
NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung
Werkzeuge

NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung

NexQuant ist eine produktionserprobte Rust-Engine, die das Ausführen von Modellen mit hohem Kontext auf Consumer-Hardware mit einer 3-5-fachen Speicherreduzierung ermöglicht. Sie unterstützt Metal-, CUDA-, Vulkan- und CPU-Backends.

OpenClawRadar