OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen

Ein OpenClaw-Entwickler hat bedeutende Fortschritte bei der Browser-Automatisierung erzielt und geht über die bisherigen Einschränkungen hinaus, die KI-Agenten an der Interaktion mit echten Websites hinderten. Der Entwickler hat erfolgreich Agenten erstellt, die komplexe Aufgaben auf Live-Websites eigenständig und ohne vorgefertigte Demos erledigen können.
Was jetzt tatsächlich funktioniert
Der Entwickler hat erfolgreich vollständige Abläufe auf zwei großen Plattformen abgeschlossen:
- Uber: Der Agent öffnet die App, gibt Abhol- und Zielorte ein, wählt den Fahrttyp aus und gelangt zum Bestätigungsbildschirm
- Restaurantbuchung: Der Agent findet ein Restaurant, füllt Reservierungsformulare aus und bestätigt Buchungen
Dies sind keine vorgefertigten Demonstrationen. Die Agenten navigieren auf echten Websites, handhaben dynamische Elemente und umgehen erfolgreich Bot-Erkennungssysteme.
Aktueller Technologie-Stack
Die funktionierende Lösung besteht aus mehreren integrierten Komponenten:
- Stealth-Browser mit persistenten Profilen und Fingerprinting
- Residential-Proxy-Routing
- CAPTCHA-Lösungsintegration
Der Entwickler merkt an, dass dies funktioniert, aber noch kein ausgereiftes Produkt ist – es ist derzeit „ein Haufen zusammengeflickter Teile, die manuelle Einrichtung erfordern“.
Entwicklungsrichtung und Community-Input
Der Entwickler möchte diesen Proof-of-Concept in etwas verwandeln, das von jedem OpenClaw-Benutzer genutzt werden kann, sucht aber vor dem Bau der „idealen“ Version nach Feedback aus der Community. Die langfristige Vision ist: „Installiere eine Fähigkeit, dein Agent erhält eine vollständige Browser-Umgebung mit deinen gespeicherten Sitzungen und kann eigenständig Dinge im Web erledigen.“
Für die unmittelbare Entwicklung stellt der Entwickler der Community spezifische Fragen:
- Welche spezifischen Automatisierungsaufgaben sind aufgrund von Browser-Einschränkungen gescheitert?
- Welche Websites/Dienste wünschst du dir, die dein Agent nutzen könnte? (Uber, Airbnb, LinkedIn, Behördenportale, Essenslieferung usw.)
- Welches Format wäre aktuell am nützlichsten?
Der Entwickler stellt mehrere Formatoptionen zur Diskussion in der Community:
- a) Eine OpenClaw-Fähigkeit, die deinem Agenten einen Stealth-Browser gibt
- b) Ein eigenständiges Tool, das du auf einem VPS ausführst und mit deinem Agenten verbindest
- c) Eine Desktop-Browser-App, die Anti-Erkennung, Sitzungen und Fingerprinting von Haus aus handhabt
- d) Einfach eine Einrichtungsanleitung, damit du die Teile selbst zusammenbauen kannst
- e) Etwas anderes
Der Entwickler fragt auch, ob Benutzer eine VPS-Anforderung akzeptieren würden oder lokale Maschinenfunktionalität benötigen.
📖 Read the full source: r/openclaw
👀 Siehe auch

Ollamas technische Probleme und Kontroversen in der Community
Ollama, ein beliebtes lokales LLM-Tool, steht in der Kritik, weil es seine Abhängigkeit von llama.cpp herunterspielt, Lizenzprobleme hat und technische Probleme mit seinem eigenen Backend aufweist, einschließlich Leistungseinbußen und wieder eingeführter Fehler.

GuppyLM: Ein 9-Millionen-Parameter-LLM, das zu Bildungszwecken von Grund auf entwickelt wurde
GuppyLM ist ein Sprachmodell mit ~9M Parametern, das von Grund auf mit 60K synthetischen Gesprächen trainiert wurde. Es verwendet eine einfache Transformer-Architektur mit 6 Schichten, 384 versteckten Dimensionen und 6 Aufmerksamkeitsköpfen. Das Training dauert etwa 5 Minuten auf einer kostenlosen Colab T4 GPU, und es spricht mit einer Fisch-Persönlichkeit, die sich auf Wasser, Futter und Aquarienleben konzentriert.

PRECC-Tool senkt Claude Code API-Kosten durch Pre-Tool-Call-Kompression
Ein Entwickler hat PRECC erstellt, ein Open-Source-Tool, das Claude Code Tool-Aufrufe abfängt und Nutzlasten mit RTK (Redundancy-aware Token Kompression) komprimiert, wodurch Eingabe-Tokens um 40-66% reduziert werden, ohne spürbare Latenzauswirkungen.

NLA wandelt die internen Aktivierungen von Gemma 3 in lesbaren Text für jedes Token um
Anthropic veröffentlichte Natural Language Autoencoders (NLA), die den internen Zustand eines Modells in Text dekodieren. Gepaart mit Gemma 3 erklärt der Auto Verbalizer, was das Modell bei jedem generierten Token „dachte". Gewichte gibt es auf Hugging Face; eine Demo auf Neuronpedia.