Zwei Forschungsprojekte stellen Imitationslernen für Web-Agenten in Frage

Zwei Ansätze zum Training von Web-Agenten
Zwei Forschungsprojekte stellen den Standardansatz in Frage, KI-Agenten ausschließlich durch Imitation von Expertenvorgaben zu trainieren, wobei sie sich speziell auf Web-Formularausfüllaufgaben konzentrieren, bei denen Modelle echte Websites navigieren, Felder ausfüllen, Buttons anklicken und Formulare absenden müssen.
Browser in the Loop: RL für Aufgabenabschluss
Das erste Projekt, "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360), verwendet ein 8-Milliarden-Parameter-Modell in einer Feedback-Schleife mit einem echten Browser. Anstatt nur Expertenvorgaben zu imitieren, generiert das Modell Aktionspläne, führt sie an Live-Webformularen aus und lernt aus dem Ergebnis.
Reinforcement Learning wandelt nahezu perfekte Versuche (bei denen alle Felder korrekt sind, aber die Übermittlung fehlschlägt) in tatsächliche Erfolge um. Die Gewinne kommen nicht davon, Felder besser auszufüllen, sondern davon, zu lernen, die Ziellinie zu überqueren – etwas, das Imitation allein nie optimiert hat.
Concentrate or Collapse: RL-Herausforderungen mit Diffusionsmodellen
Das zweite Projekt, "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088), untersucht, was passiert, wenn Modelle Aktionen überhaupt nicht von links nach rechts generieren. Diffusionssprachmodelle verfeinern gesamte Aktionssequenzen parallel, aber die Anwendung desselben RL, das bei autoregressiven Modellen funktioniert, führt dazu, dass diese Diffusionsmodelle kollabieren, wobei die Ausgaben zu Inkohärenz degenerieren.
In 16 kontrollierten Vergleichen verbesserte tokenbasierter RL nur zweimal. Die Lösung erforderte ein Überdenken der Optimierung auf Sequenzebene, wo eine Methode (ESPO) schließlich für reine Diffusionsarchitekturen durchbrach.
Wesentliche Implikationen
Die Forschung hebt hervor, dass die meisten Web-Agenten-Benchmarks immer noch anhand der Textähnlichkeit zu Referenztrajektorien und nicht anhand der tatsächlichen Aufgabenabschlüsse bewerten. Diese Projekte legen nahe, dass das, was auf dem Papier korrekt aussieht, und das, was im Browser tatsächlich funktioniert, unterschiedliche Probleme sind, und die Optimierung für das Falsche lässt Leistungspotenzial ungenutzt.
Alle 12 trainierten Modelle und ihre Pipeline wurden quelloffen veröffentlicht: Code unter github.com/billy-enrizky/openbrowser-ai und Modelle unter huggingface.co/billyenrizky.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

中国AI工程师成为硅谷的新权力玩家
Eine Journalistin, die in Los Altos in einer Wohngemeinschaft lebt, erkundet die Gemeinschaft chinesischer KI-Forscher im Silicon Valley und beschreibt Vergütungspakete in Höhe von 200 Millionen Dollar, ihren intensiven Arbeitseifer sowie die Hauspartys, auf denen sie Netzwerke knüpfen.
Öffentliche Gegenreaktion gegen KI ist real: Gewalt, Umfragedaten und abnehmende Erträge
Ein Molotow-Angriff auf den CEO von OpenAI, Wut der Gen Z steigt auf 31 %, und 80 % der Unternehmen sehen keinen Produktivitätsgewinn – die Flitterwochen der KI sind vorbei.

Claude-API-Nutzungsdaten zeigen Auswirkungen neuer Limits auf Max-Plan-Nutzer
Ein Claude Max 20x-Benutzer berichtet, dass die API-äquivalente tägliche Nutzung nach der Einführung neuer Limits von ~210 $/Tag auf ~52 $/Tag gesunken ist, was erhebliche Arbeitsablaufänderungen erfordert, einschließlich der Nutzung von Sonnet und Codex.

Schiff-Rounds LIFT AI Act: Was Entwickler über den KI-Bildungsgesetzentwurf für K-12 wissen müssen
OpenAI, Google und Microsoft unterstützen den LIFT AI Act, der NSF-Zuschüsse für KI-Literacy-Curricula in K-12, Lehrertraining und Bewertungswerkzeuge bereitstellt.