Imitationslernen für Web-Agenten: 2 Studien zeigen Grenzen

Zwei Ansätze zum Training von Web-Agenten

Zwei Forschungsprojekte stellen den Standardansatz in Frage, KI-Agenten ausschließlich durch Imitation von Expertenvorgaben zu trainieren, wobei sie sich speziell auf Web-Formularausfüllaufgaben konzentrieren, bei denen Modelle echte Websites navigieren, Felder ausfüllen, Buttons anklicken und Formulare absenden müssen.

Browser in the Loop: RL für Aufgabenabschluss

Das erste Projekt, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), verwendet ein 8-Milliarden-Parameter-Modell in einer Feedback-Schleife mit einem echten Browser. Anstatt nur Expertenvorgaben zu imitieren, generiert das Modell Aktionspläne, führt sie an Live-Webformularen aus und lernt aus dem Ergebnis.

Reinforcement Learning wandelt nahezu perfekte Versuche (bei denen alle Felder korrekt sind, aber die Übermittlung fehlschlägt) in tatsächliche Erfolge um. Die Gewinne kommen nicht davon, Felder besser auszufüllen, sondern davon, zu lernen, die Ziellinie zu überqueren – etwas, das Imitation allein nie optimiert hat.

Concentrate or Collapse: RL-Herausforderungen mit Diffusionsmodellen

Das zweite Projekt, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), untersucht, was passiert, wenn Modelle Aktionen überhaupt nicht von links nach rechts generieren. Diffusionssprachmodelle verfeinern gesamte Aktionssequenzen parallel, aber die Anwendung desselben RL, das bei autoregressiven Modellen funktioniert, führt dazu, dass diese Diffusionsmodelle kollabieren, wobei die Ausgaben zu Inkohärenz degenerieren.

In 16 kontrollierten Vergleichen verbesserte tokenbasierter RL nur zweimal. Die Lösung erforderte ein Überdenken der Optimierung auf Sequenzebene, wo eine Methode (ESPO) schließlich für reine Diffusionsarchitekturen durchbrach.

Wesentliche Implikationen

Die Forschung hebt hervor, dass die meisten Web-Agenten-Benchmarks immer noch anhand der Textähnlichkeit zu Referenztrajektorien und nicht anhand der tatsächlichen Aufgabenabschlüsse bewerten. Diese Projekte legen nahe, dass das, was auf dem Papier korrekt aussieht, und das, was im Browser tatsächlich funktioniert, unterschiedliche Probleme sind, und die Optimierung für das Falsche lässt Leistungspotenzial ungenutzt.

Alle 12 trainierten Modelle und ihre Pipeline wurden quelloffen veröffentlicht: Code unter github.com/billy-enrizky/openbrowser-ai und Modelle unter huggingface.co/billyenrizky.

📖 Read the full source: r/LocalLLaMA

Zwei Forschungsprojekte stellen Imitationslernen für Web-Agenten in Frage

Zwei Ansätze zum Training von Web-Agenten

Browser in the Loop: RL für Aufgabenabschluss

Concentrate or Collapse: RL-Herausforderungen mit Diffusionsmodellen

Wesentliche Implikationen

👀 Siehe auch

DeepSeek Paid API nutzt Prompts für Training – Was OpenClaw-Nutzer wissen müssen

Goldman-Sachs-Analyse zeigt minimale Auswirkungen von KI auf das US-BIP-Wachstum 2025

Claude Cowork für Windows ARM64 veröffentlicht mit Kompatibilitätsprüfer

VibeThinker-3B: Ein 3B-Parameter-Modell, das auf AIME-Mathe-Benchmarks mit 671B DeepSeek mithalten kann