OpenClaw CAPTCHA Fix: Camoufox + CLI Wrapper

Das Problem: Warum OpenClaw blockiert wird

Der eingebaute Browser von OpenClaw verwendet Chromium mit Playwright. Obwohl er menschlich wirkt (ein privates MacBook Pro im Heimnetzwerk, eingeloggte Konten), wird er von Websites mit Bot-Erkennung blockiert. Google und Bing werfen CAPTCHAs aus, X zeigt Login-Wände, und Medium lädt hinter Cloudflare nicht.

Wie Bot-Erkennung funktioniert

Tools wie Puppeteer und Playwright verwenden das Chrome DevTools Protocol (CDP), um den Browser zu steuern. Wenn sie sich verbinden, wird ein Runtime.Enable-Befehl ausgelöst. Anti-Bot-Skripte erkennen dies mit JavaScript. Cloudflare und DataDome prüfen beide darauf.

Automatisierungsbibliotheken injizieren auch JavaScript in Seiten, um zu funktionieren (window.__playwright__binding__ und ähnliches). Anti-Bot-Skripte fangen diese ab, indem sie Eigenschaftsdeskriptoren und Funktionssignaturen überprüfen. Wenn toString() bei einer Browserfunktion nicht mehr "[native code]" zurückgibt, wurde etwas manipuliert.

Hardware-Fingerprinting legt Hunderte von Datenpunkten offen: GPU-Modell über WebGL, pixelgenaue Canvas-Ausgabe, die je nach Grafikhardware variiert, Bildschirmauflösung, Schriftmetriken, Audioverarbeitung. Automatisierte Browser machen hier Fehler – die Canvas-Ausgabe ist bei Tausenden von Sitzungen identisch, oder der User-Agent sagt Windows, aber die GPU sagt Apple.

Die Lösung: Camoufox

Die meisten Anti-Erkennungstools versuchen, dies auf JavaScript-Ebene zu beheben, indem sie navigator.webdriver überschreiben oder Canvas-Ausgaben fälschen. Anti-Bot-Skripte durchschauen dies. Die Lösung muss auf Ebene der Browser-Engine erfolgen.

Camoufox (ein Firefox-Ableger) modifiziert Fingerprinting-Werte in der C++-Implementierung, sodass gefälschte Eigenschaften bei jeder Überprüfung nativ aussehen. Es verwendet CDP überhaupt nicht, und Seiten-Skripte können den Automatisierungscode nicht sehen.

Praktische Umsetzung: CLI-Wrapper

Camoufox hat nur ein Python-SDK, was erfordert, dass der Agent für jede Browseraktion Wegwerf-Python-Skripte schreibt, Methodensignaturen herausfindet, asynchrone Kontexte handhabt und Ergebnisse parst. Jeder Seitenbesuch verbrauchte Token für Boilerplate-Code.

Die Lösung verpackt es in eine CLI. Der Agent ruft Shell-Befehle auf, um Seiten zu öffnen, Elemente anzuklicken, Formulare auszufüllen. Keine Python-Skripte, kein asynchroner Boilerplate. Ein Daemon hält den Browser zwischen Befehlen am Leben und eliminiert Startkosten pro Aktion.

Um den Token-Verbrauch zu reduzieren, gibt die CLI Zugänglichkeitsbaum-Snapshots statt rohem HTML zurück. Jedes Element erhält einen kurzen @ref-Tag für Interaktion. Ein interaktiver Modus entfernt alles außer Buttons, Links und Eingabefeldern. Eine Seite, die als HTML 15.000 Token kostet, könnte als interaktiver Snapshot 800 kosten.

Die CLI, Fähigkeiten und der Quellcode sind unter camoufox-cli verfügbar.

📖 Read the full source: r/openclaw