OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen

Ein OpenClaw-Entwickler hat bedeutende Fortschritte bei der Browser-Automatisierung erzielt und geht über die bisherigen Einschränkungen hinaus, die KI-Agenten an der Interaktion mit echten Websites hinderten. Der Entwickler hat erfolgreich Agenten erstellt, die komplexe Aufgaben auf Live-Websites eigenständig und ohne vorgefertigte Demos erledigen können.
Was jetzt tatsächlich funktioniert
Der Entwickler hat erfolgreich vollständige Abläufe auf zwei großen Plattformen abgeschlossen:
- Uber: Der Agent öffnet die App, gibt Abhol- und Zielorte ein, wählt den Fahrttyp aus und gelangt zum Bestätigungsbildschirm
- Restaurantbuchung: Der Agent findet ein Restaurant, füllt Reservierungsformulare aus und bestätigt Buchungen
Dies sind keine vorgefertigten Demonstrationen. Die Agenten navigieren auf echten Websites, handhaben dynamische Elemente und umgehen erfolgreich Bot-Erkennungssysteme.
Aktueller Technologie-Stack
Die funktionierende Lösung besteht aus mehreren integrierten Komponenten:
- Stealth-Browser mit persistenten Profilen und Fingerprinting
- Residential-Proxy-Routing
- CAPTCHA-Lösungsintegration
Der Entwickler merkt an, dass dies funktioniert, aber noch kein ausgereiftes Produkt ist – es ist derzeit „ein Haufen zusammengeflickter Teile, die manuelle Einrichtung erfordern“.
Entwicklungsrichtung und Community-Input
Der Entwickler möchte diesen Proof-of-Concept in etwas verwandeln, das von jedem OpenClaw-Benutzer genutzt werden kann, sucht aber vor dem Bau der „idealen“ Version nach Feedback aus der Community. Die langfristige Vision ist: „Installiere eine Fähigkeit, dein Agent erhält eine vollständige Browser-Umgebung mit deinen gespeicherten Sitzungen und kann eigenständig Dinge im Web erledigen.“
Für die unmittelbare Entwicklung stellt der Entwickler der Community spezifische Fragen:
- Welche spezifischen Automatisierungsaufgaben sind aufgrund von Browser-Einschränkungen gescheitert?
- Welche Websites/Dienste wünschst du dir, die dein Agent nutzen könnte? (Uber, Airbnb, LinkedIn, Behördenportale, Essenslieferung usw.)
- Welches Format wäre aktuell am nützlichsten?
Der Entwickler stellt mehrere Formatoptionen zur Diskussion in der Community:
- a) Eine OpenClaw-Fähigkeit, die deinem Agenten einen Stealth-Browser gibt
- b) Ein eigenständiges Tool, das du auf einem VPS ausführst und mit deinem Agenten verbindest
- c) Eine Desktop-Browser-App, die Anti-Erkennung, Sitzungen und Fingerprinting von Haus aus handhabt
- d) Einfach eine Einrichtungsanleitung, damit du die Teile selbst zusammenbauen kannst
- e) Etwas anderes
Der Entwickler fragt auch, ob Benutzer eine VPS-Anforderung akzeptieren würden oder lokale Maschinenfunktionalität benötigen.
📖 Read the full source: r/openclaw
👀 Siehe auch

Lokaler KI-Agent erreicht Sub-Sekunden-STT- und TTS-Latenz mit Open-Source-Servern
Ein Entwickler erreichte ~0,2s STT-Latenz mit Whisper large-v3-turbo in einer hybriden, thread-verwalteten GPU-Architektur und ~250ms TTS-Latenz mit Coqui-TTS, optimiert für synthese mit geringer Latenz. Beide Implementierungen sind vollständig selbst gehostet und quelloffen.

Manifest unterstützt jetzt Claude Pro/Max-Abonnements ohne API-Schlüssel
Manifest, eine Open-Source-Routing-Schicht für OpenClaw, ermöglicht jetzt den direkten Anschluss von Claude Pro- oder Max-Abonnements, ohne dass ein API-Schlüssel erforderlich ist. Benutzer mit API-Schlüsseln können ein Fallback-Routing konfigurieren, wenn die Abonnement-Ratenlimits erreicht werden.

Code-Entscheidungen: Open-Source-Claude-Plugin erfasst technische Entscheidungen
Code Decisions ist ein Open-Source-Claude-Code-Plugin, das technische Entscheidungen aus Gesprächen erfasst und sie anzeigt, wenn betroffene Dateien bearbeitet werden. Es schreibt Entscheidungen als Markdown-Dateien in .claude/decisions/ mit einem affects-Feld, das auf die verwalteten Dateien verweist.
xAI TTS-Integration für Home Assistant mit Claude erstellt — Vollständiges Repo
Ein Entwickler nutzte Claude, um eine benutzerdefinierte Home Assistant-Integration für xAIs TTS-API (Eve-Stimme) mit vollständiger UI-Konfiguration, fünf Stimmen und Sprach-Tags zu erstellen.