L'agent IA Coasty résout les défis CAPTCHA jusqu'au niveau 6 sans entraînement.

L'agent d'utilisation informatique de Coasty gère les défis réels du bureau
L'agent d'utilisation informatique de Coasty (CUA) a démontré sa capacité à résoudre des défis CAPTCHA jusqu'au niveau 6 sans avoir été spécifiquement entraîné pour les tests "Je ne suis pas un robot". L'agent a obtenu 82 % sur le benchmark OSWorld, ce qui représente une performance de pointe pour les agents d'utilisation informatique opérant dans des environnements de bureau réels.
L'agent gère divers défis d'interface web qui font généralement échouer d'autres agents, notamment :
- Les défis CAPTCHA jusqu'au niveau 6
- Les popups de navigateur
- Les bannières de cookies
Selon la source, les développeurs n'ont pas enseigné au CUA à résoudre spécifiquement les défis "Je ne suis pas un robot", notant que "l'ironie ne nous échappe pas". La performance de l'agent suggère qu'il a développé des capacités d'interaction informatique généralisées plutôt que des solutions spécialisées pour des types de défis individuels.
Un lien de relecture est disponible pour ceux qui souhaitent voir l'agent en action : https://coasty.ai/share/1cd404ae-3fcb-4d7f-b9d4-dac7aa26fc6d
📖 Lire la source complète : HN AI Agents
👀 See Also

Explorer n8n comme alternative aux compétences OpenClaw pour l'automatisation
La communauté OpenClaw sur Reddit débat des avantages et inconvénients de l'utilisation de n8n par rapport aux compétences OpenClaw pour les tâches d'automatisation. Les points clés de discussion incluent la facilité d'utilisation, la flexibilité et des exemples d'applications concrètes.

Titre : Modèles locaux vs cloud : Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark sur la génération de code difficile
Un utilisateur a testé Qwen-3.6-27B (q4_k_m) localement sur une RTX 5080 par rapport à Gemma-4-31B, Claude Haiku 4.5 et Codex-Spark via API sur une tâche de code complexe. Seul Codex-Spark a produit un code complet (mais avec des erreurs d'import) ; tous les autres ont partiellement échoué. Coût : Gemma a utilisé 0,112 $ pour 803 000 tokens d'entrée.

Claude Code Post-mortem : Trois bugs ont causé une dégradation de la qualité, désormais corrigés
Anthropic a retracé les récentes plaintes concernant la qualité de Claude Code à trois modifications distinctes : l'effort de raisonnement par défaut a été réduit, un bug de cache a supprimé la mémoire de session, et une invite de verbosité a nui à la qualité du codage. Tout est corrigé depuis le 20 avril (v2.1.116).

OpenClaw : Plongez dans le premier AMA sur r/clawdbot
Lors d'une passionnante session AMA, l'équipe d'OpenClaw a discuté de l'avenir des agents d'IA pour le codage sur le subreddit r/clawdbot de Reddit. Découvrez les principaux enseignements et points clés de cet événement interactif.