L'Agent Web TinyFish Surpasse les Concurrents dans les Tests de Performance de Tâches Web

✍️ OpenClawRadar📅 Publié: February 13, 2026🔗 Source

L'agent web TinyFish s'est avéré être un outil de premier plan pour aborder des tâches web complexes, atteignant un taux de réussite de 81,9 % sur les tâches difficiles du benchmark Online-Mind2Web, qui comprend 300 tâches réparties sur 136 sites web en direct. Ce chiffre contraste fortement avec ceux des principaux concurrents, comme OpenAI Operator, qui n'a atteint qu'un taux de réussite de 43,2 % sur des tâches similaires.

Le benchmark Online-Mind2Web est une mesure rigoureuse des capacités d'un agent web, les testant sur des tâches allant de simples, comme parcourir les offres de cartes de crédit sur Marriott, à des défis complexes tels que la réservation de billets d'événements avec tarification dynamique. Les tâches impliquent plusieurs étapes sur des sites web en direct, y compris la gestion de la validation de formulaires et des fenêtres contextuelles, ce qui en fait un test réaliste par rapport à d'autres benchmarks moins fiables comme WebVoyager.

TinyFish se distingue en gérant efficacement les erreurs cumulatives. Il ne perd que 15,6 points entre les tâches faciles et difficiles, contrairement aux baisses massives observées avec d'autres systèmes, soulignant ainsi sa robustesse dans des scénarios réels. Notamment, il a publié l'ensemble des 300 exécutions de tâches, y compris ses 40 échecs, ce qui offre une transparence sur ses caractéristiques de performance et ses cas d'échec, tels que les blocages anti-bots au niveau de l'infrastructure rencontrés sur des sites comme apartments.com.

Les développeurs à la recherche d'un outil robuste d'automatisation web trouveront intéressant le dépôt de recettes open-source de TinyFish, qui donne un aperçu de son architecture et de sa méthodologie d'exécution.

📖 Lire la source complète : HN AI Agents

👀 See Also

Tools

Plugin Spectyra pour OpenClaw : Optimisation des coûts IA en temps réel par analyse du flux complet des requêtes

Le plugin Spectyra réduit les coûts des API IA en exposant les gaspillages cachés comme les appels répétés, le contexte excessif et la mauvaise utilisation de modèles coûteux en temps réel.

Apr 29, 2026, 08:17 AM UTC

OpenClawRadar

Tools

Compétence d'Écriture de Livre Multi-Agent OpenClaw Publiée

Un système multi-agent d'écriture de livres basé sur OpenClaw a été publié en tant que compétence, intégrant la connexion DeepWiki MCP, la génération d'images GLM pour les illustrations, l'estimation budgétaire et la révision au niveau des chapitres. Deux chapitres du livre OpenClaw Paradigm ont été mis à jour grâce à cet outil.

Apr 17, 2026, 02:45 AM UTC

OpenClawRadar

Tools

Le système Auto-Fix utilise Claude Code Headless pour détecter et corriger les erreurs de production.

Un développeur a créé un système automatisé de correction d'erreurs de production en utilisant Claude Code CLI en mode headless. Le système détecte les erreurs dans les logs, crée des worktrees git isolés pour chaque problème, demande à Claude d'écrire des correctifs, et nécessite une approbation manuelle via Telegram avant de créer des PR.

Mar 8, 2026, 09:45 AM UTC

OpenClawRadar

Tools

Rift : Une meilleure alternative aux worktrees Git avec des instantanés instantanés par copie sur écriture

Rift utilise les snapshots btrfs ou APFS pour créer des copies instantanées et économes en espace des dépôts Git. Initialisation, création et listing via CLI ou FFI JavaScript.

Jun 2, 2026, 12:19 AM UTC

OpenClawRadar