Lokale Qwen-Modelle erreichen Browser-Automatisierung mit schrittweiser Planung und kompakter DOM.

Schrittweise Planung überwindet Fehler bei vorabiger Planung
Der Entwickler stellte fest, dass das Anfordern von Modellen, einen vollständigen Mehrschrittplan zu erstellen, bevor der tatsächliche Seitenstatus sichtbar ist, auf bekannten Websites funktioniert, aber bei unerwarteten Elementen schnell versagt. Besser funktionierte die schrittweise Planung, bei der das Modell bei jedem Schritt basierend auf der aktuellen DOM-Momentaufnahme neu plant.
Beispielablauf auf Ace Hardware
Der getestete Ablauf mit Qwen 8B als Planer und 4B als Ausführer auf Ace Hardware (eine Website, für die das Modell keine vorherige Aufgabe hatte) schloss einen vollständigen Warenkorb-Ablauf ohne Verwendung eines Vision-Modells ab. Der schrittweise Ansatz sah so aus:
- Schritt 1: Suchfeld sehen → TYP "Rasenmäher"
- Schritt 2: Ergebnisse sehen → KLICK In den Warenkorb
- Schritt 3: Schublade erscheint → schließen
- Schritt 4: Warenkorb sichtbar → KLICK Warenkorb ansehen
- Schritt 5: FERTIG
Kompakte DOM-Darstellung ermöglicht kleine Modelle
Das Modell sieht niemals rohes HTML oder Screenshots – nur eine semantische Tabellendarstellung:
id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"
Dies ermöglicht es dem 4B-Ausführer, eine Element-ID aus einer kurzen Liste auszuwählen. Vision-Ansätze verbrauchen 2-3K Token pro Screenshot, leicht 50-100K+ für einen vollständigen Ablauf, während kompakte Momentaufnahmen insgesamt ~15K für dieselbe Aufgabe verwenden.
Modale Handhabung entscheidend für Erfolg
Nach jedem Klick, wenn der DOM plötzlich wächst, sucht der Agent nach Schließmustern (schließen, ×, nein danke, usw.), bevor er erneut plant. Dies behebt viele Fehler, die wie "schlechte Schlussfolgerungen" erschienen, aber tatsächlich versteckte Overlays waren.
Der Entwickler merkt an, dass er neugierig ist, ob andere beobachten, dass schrittweise Planung vorabige Planung übertrifft, sobald Websites unbekannt werden.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Counter: Android-App verfolgt Claude-Nutzungslimits mit Echtzeit-Benachrichtigungen
Ein Entwickler hat Claude Counter erstellt, eine kostenlose Android-App, die die API von Claude abfragt, um Live-Sitzungs- und wöchentliche Nutzungslimits anzuzeigen. Die App zeigt Fortschrittsbalken, bietet umfangreiche Benachrichtigungen mit verbleibenden Prozentsätzen und warnt, wenn Limits zurückgesetzt werden.

Claude Code's Read Tool reduziert Bilder stillschweigend und verursacht Halluzinationen
Das `read`-Tool von Claude Code skaliert Bilder stillschweigend herunter, bevor das Modell sie sieht, was zu verschlechterter Ausgabe und unerkannten Halluzinationen beim Extrahieren von Text aus Screenshots führt.

Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks
Clawdex ist ein Verzeichnis, das 18 OpenClaw-bezogene Projekte in drei Stufen auflistet, mit Daten zu Sternen, Programmiersprache und Kategorie-Tags. Das Projekt ist PR-gesteuert, was bedeutet, dass Mitwirkende das Repo forken, eine YAML-Datei in /src/data/projects/ hinzufügen und einen Pull-Request öffnen müssen.

NexQuant: Rust-native 3-Bit-KV-Cache-Engine für Edge-Bereitstellung
NexQuant ist eine produktionserprobte Rust-Engine, die das Ausführen von Modellen mit hohem Kontext auf Consumer-Hardware mit einer 3-5-fachen Speicherreduzierung ermöglicht. Sie unterstützt Metal-, CUDA-, Vulkan- und CPU-Backends.