KI-Agenten buchen Uber & Restaurants: OpenClaw-Durchbruch

Ein OpenClaw-Entwickler hat bedeutende Fortschritte bei der Browser-Automatisierung erzielt und geht über die bisherigen Einschränkungen hinaus, die KI-Agenten an der Interaktion mit echten Websites hinderten. Der Entwickler hat erfolgreich Agenten erstellt, die komplexe Aufgaben auf Live-Websites eigenständig und ohne vorgefertigte Demos erledigen können.

Was jetzt tatsächlich funktioniert

Der Entwickler hat erfolgreich vollständige Abläufe auf zwei großen Plattformen abgeschlossen:

Uber: Der Agent öffnet die App, gibt Abhol- und Zielorte ein, wählt den Fahrttyp aus und gelangt zum Bestätigungsbildschirm
Restaurantbuchung: Der Agent findet ein Restaurant, füllt Reservierungsformulare aus und bestätigt Buchungen

Dies sind keine vorgefertigten Demonstrationen. Die Agenten navigieren auf echten Websites, handhaben dynamische Elemente und umgehen erfolgreich Bot-Erkennungssysteme.

Aktueller Technologie-Stack

Die funktionierende Lösung besteht aus mehreren integrierten Komponenten:

Stealth-Browser mit persistenten Profilen und Fingerprinting
Residential-Proxy-Routing
CAPTCHA-Lösungsintegration

Der Entwickler merkt an, dass dies funktioniert, aber noch kein ausgereiftes Produkt ist – es ist derzeit „ein Haufen zusammengeflickter Teile, die manuelle Einrichtung erfordern“.

Entwicklungsrichtung und Community-Input

Der Entwickler möchte diesen Proof-of-Concept in etwas verwandeln, das von jedem OpenClaw-Benutzer genutzt werden kann, sucht aber vor dem Bau der „idealen“ Version nach Feedback aus der Community. Die langfristige Vision ist: „Installiere eine Fähigkeit, dein Agent erhält eine vollständige Browser-Umgebung mit deinen gespeicherten Sitzungen und kann eigenständig Dinge im Web erledigen.“

Für die unmittelbare Entwicklung stellt der Entwickler der Community spezifische Fragen:

Welche spezifischen Automatisierungsaufgaben sind aufgrund von Browser-Einschränkungen gescheitert?
Welche Websites/Dienste wünschst du dir, die dein Agent nutzen könnte? (Uber, Airbnb, LinkedIn, Behördenportale, Essenslieferung usw.)
Welches Format wäre aktuell am nützlichsten?

Der Entwickler stellt mehrere Formatoptionen zur Diskussion in der Community:

a) Eine OpenClaw-Fähigkeit, die deinem Agenten einen Stealth-Browser gibt
b) Ein eigenständiges Tool, das du auf einem VPS ausführst und mit deinem Agenten verbindest
c) Eine Desktop-Browser-App, die Anti-Erkennung, Sitzungen und Fingerprinting von Haus aus handhabt
d) Einfach eine Einrichtungsanleitung, damit du die Teile selbst zusammenbauen kannst
e) Etwas anderes

Der Entwickler fragt auch, ob Benutzer eine VPS-Anforderung akzeptieren würden oder lokale Maschinenfunktionalität benötigen.

📖 Read the full source: r/openclaw

OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen

Was jetzt tatsächlich funktioniert

Aktueller Technologie-Stack

Entwicklungsrichtung und Community-Input

👀 Siehe auch

Ollamas technische Probleme und Kontroversen in der Community

GuppyLM: Ein 9-Millionen-Parameter-LLM, das zu Bildungszwecken von Grund auf entwickelt wurde

PRECC-Tool senkt Claude Code API-Kosten durch Pre-Tool-Call-Kompression

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um