Corriger CAPTCHA OpenClaw avec Camoufox en CLI

Le problème : Pourquoi OpenClaw est bloqué

Le navigateur intégré d'OpenClaw utilise Chromium avec Playwright. Bien qu'il semble humain (MacBook Pro de rechange sur réseau domestique, comptes connectés), il est bloqué par les sites avec détection de bots. Google et Bing lancent des CAPTCHA, X affiche des murs de connexion, et Medium ne se charge pas derrière Cloudflare.

Comment fonctionne la détection de bots

Des outils comme Puppeteer et Playwright utilisent le protocole Chrome DevTools (CDP) pour contrôler le navigateur. Lorsqu'ils se connectent, une commande Runtime.Enable se déclenche. Les scripts anti-bots détectent cela avec JavaScript. Cloudflare et DataDome vérifient tous les deux cela.

Les bibliothèques d'automatisation injectent également du JavaScript dans les pages pour fonctionner (window.__playwright__binding__ et similaire). Les scripts anti-bots les attrapent en vérifiant les descripteurs de propriété et les signatures de fonction. Si toString() sur une fonction du navigateur ne renvoie plus "[native code]", quelque chose a été altéré.

L'empreinte matérielle expose des centaines de points de données : modèle GPU via WebGL, sortie Canvas au niveau pixel qui varie selon le matériel graphique, résolution d'écran, métriques de police, traitement audio. Les navigateurs automatisés se trompent sur cela - la sortie Canvas est identique sur des milliers de sessions, ou l'agent utilisateur indique Windows mais le GPU indique Apple.

La solution : Camoufox

La plupart des outils anti-détection essaient de corriger cela au niveau JavaScript, en remplaçant navigator.webdriver ou en falsifiant la sortie Canvas. Les scripts anti-bots voient à travers cela. La correction doit se produire au niveau du moteur du navigateur.

Camoufox (un fork de Firefox) modifie les valeurs d'empreinte dans l'implémentation C++, de sorte que les propriétés falsifiées semblent natives à toute inspection. Il n'utilise pas du tout CDP, et les scripts de page ne peuvent pas voir le code d'automatisation.

Le rendre pratique : Enveloppe CLI

Camoufox n'a qu'un SDK Python, nécessitant que l'agent écrive des scripts Python jetables pour chaque action du navigateur, découvre les signatures de méthode, gère les contextes asynchrones et analyse les résultats. Chaque visite de page brûlait des tokens sur du code standard.

La solution l'encapsule dans une CLI. L'agent appelle des commandes shell pour ouvrir des pages, cliquer sur des éléments, remplir des formulaires. Pas de scripts Python, pas de code standard asynchrone. Un démon garde le navigateur en vie entre les commandes, éliminant le coût de démarrage par action.

Pour réduire l'utilisation de tokens, la CLI renvoie des instantanés de l'arbre d'accessibilité au lieu du HTML brut. Chaque élément obtient une courte balise @ref pour l'interaction. Un mode interactif uniquement supprime tout sauf les boutons, liens et champs de saisie. Une page qui coûte 15 000 tokens en HTML pourrait coûter 800 en instantané interactif.

La CLI, les compétences et le code source sont disponibles sur camoufox-cli.

📖 Read the full source: r/openclaw