OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen

✍️ OpenClawRadar📅 Veröffentlicht: 21. März 2026🔗 Source
OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen
Ad

Ein OpenClaw-Entwickler hat bedeutende Fortschritte bei der Browser-Automatisierung erzielt und geht über die bisherigen Einschränkungen hinaus, die KI-Agenten an der Interaktion mit echten Websites hinderten. Der Entwickler hat erfolgreich Agenten erstellt, die komplexe Aufgaben auf Live-Websites eigenständig und ohne vorgefertigte Demos erledigen können.

Was jetzt tatsächlich funktioniert

Der Entwickler hat erfolgreich vollständige Abläufe auf zwei großen Plattformen abgeschlossen:

  • Uber: Der Agent öffnet die App, gibt Abhol- und Zielorte ein, wählt den Fahrttyp aus und gelangt zum Bestätigungsbildschirm
  • Restaurantbuchung: Der Agent findet ein Restaurant, füllt Reservierungsformulare aus und bestätigt Buchungen

Dies sind keine vorgefertigten Demonstrationen. Die Agenten navigieren auf echten Websites, handhaben dynamische Elemente und umgehen erfolgreich Bot-Erkennungssysteme.

Aktueller Technologie-Stack

Die funktionierende Lösung besteht aus mehreren integrierten Komponenten:

  • Stealth-Browser mit persistenten Profilen und Fingerprinting
  • Residential-Proxy-Routing
  • CAPTCHA-Lösungsintegration

Der Entwickler merkt an, dass dies funktioniert, aber noch kein ausgereiftes Produkt ist – es ist derzeit „ein Haufen zusammengeflickter Teile, die manuelle Einrichtung erfordern“.

Ad

Entwicklungsrichtung und Community-Input

Der Entwickler möchte diesen Proof-of-Concept in etwas verwandeln, das von jedem OpenClaw-Benutzer genutzt werden kann, sucht aber vor dem Bau der „idealen“ Version nach Feedback aus der Community. Die langfristige Vision ist: „Installiere eine Fähigkeit, dein Agent erhält eine vollständige Browser-Umgebung mit deinen gespeicherten Sitzungen und kann eigenständig Dinge im Web erledigen.“

Für die unmittelbare Entwicklung stellt der Entwickler der Community spezifische Fragen:

  • Welche spezifischen Automatisierungsaufgaben sind aufgrund von Browser-Einschränkungen gescheitert?
  • Welche Websites/Dienste wünschst du dir, die dein Agent nutzen könnte? (Uber, Airbnb, LinkedIn, Behördenportale, Essenslieferung usw.)
  • Welches Format wäre aktuell am nützlichsten?

Der Entwickler stellt mehrere Formatoptionen zur Diskussion in der Community:

  • a) Eine OpenClaw-Fähigkeit, die deinem Agenten einen Stealth-Browser gibt
  • b) Ein eigenständiges Tool, das du auf einem VPS ausführst und mit deinem Agenten verbindest
  • c) Eine Desktop-Browser-App, die Anti-Erkennung, Sitzungen und Fingerprinting von Haus aus handhabt
  • d) Einfach eine Einrichtungsanleitung, damit du die Teile selbst zusammenbauen kannst
  • e) Etwas anderes

Der Entwickler fragt auch, ob Benutzer eine VPS-Anforderung akzeptieren würden oder lokale Maschinenfunktionalität benötigen.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

Ollamas technische Probleme und Kontroversen in der Community
Werkzeuge

Ollamas technische Probleme und Kontroversen in der Community

Ollama, ein beliebtes lokales LLM-Tool, steht in der Kritik, weil es seine Abhängigkeit von llama.cpp herunterspielt, Lizenzprobleme hat und technische Probleme mit seinem eigenen Backend aufweist, einschließlich Leistungseinbußen und wieder eingeführter Fehler.

OpenClawRadar
GuppyLM: Ein 9-Millionen-Parameter-LLM, das zu Bildungszwecken von Grund auf entwickelt wurde
Werkzeuge

GuppyLM: Ein 9-Millionen-Parameter-LLM, das zu Bildungszwecken von Grund auf entwickelt wurde

GuppyLM ist ein Sprachmodell mit ~9M Parametern, das von Grund auf mit 60K synthetischen Gesprächen trainiert wurde. Es verwendet eine einfache Transformer-Architektur mit 6 Schichten, 384 versteckten Dimensionen und 6 Aufmerksamkeitsköpfen. Das Training dauert etwa 5 Minuten auf einer kostenlosen Colab T4 GPU, und es spricht mit einer Fisch-Persönlichkeit, die sich auf Wasser, Futter und Aquarienleben konzentriert.

OpenClawRadar
PRECC-Tool senkt Claude Code API-Kosten durch Pre-Tool-Call-Kompression
Werkzeuge

PRECC-Tool senkt Claude Code API-Kosten durch Pre-Tool-Call-Kompression

Ein Entwickler hat PRECC erstellt, ein Open-Source-Tool, das Claude Code Tool-Aufrufe abfängt und Nutzlasten mit RTK (Redundancy-aware Token Kompression) komprimiert, wodurch Eingabe-Tokens um 40-66% reduziert werden, ohne spürbare Latenzauswirkungen.

OpenClawRadar
NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um
Werkzeuge

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um

Anthropic veröffentlichte Natural Language Autoencoders (NLA), die den internen Zustand eines Modells in Text dekodieren. Gepaart mit Gemma 3 erklärt der Auto Verbalizer, was das Modell bei jedem generierten Token „dachte". Gewichte gibt es auf Hugging Face; eine Demo auf Neuronpedia.

OpenClawRadar