L'Agent Web TinyFish Surpasse les Concurrents dans les Tests de Performance de Tâches Web

L'agent web TinyFish s'est avéré être un outil de premier plan pour aborder des tâches web complexes, atteignant un taux de réussite de 81,9 % sur les tâches difficiles du benchmark Online-Mind2Web, qui comprend 300 tâches réparties sur 136 sites web en direct. Ce chiffre contraste fortement avec ceux des principaux concurrents, comme OpenAI Operator, qui n'a atteint qu'un taux de réussite de 43,2 % sur des tâches similaires.
Le benchmark Online-Mind2Web est une mesure rigoureuse des capacités d'un agent web, les testant sur des tâches allant de simples, comme parcourir les offres de cartes de crédit sur Marriott, à des défis complexes tels que la réservation de billets d'événements avec tarification dynamique. Les tâches impliquent plusieurs étapes sur des sites web en direct, y compris la gestion de la validation de formulaires et des fenêtres contextuelles, ce qui en fait un test réaliste par rapport à d'autres benchmarks moins fiables comme WebVoyager.
TinyFish se distingue en gérant efficacement les erreurs cumulatives. Il ne perd que 15,6 points entre les tâches faciles et difficiles, contrairement aux baisses massives observées avec d'autres systèmes, soulignant ainsi sa robustesse dans des scénarios réels. Notamment, il a publié l'ensemble des 300 exécutions de tâches, y compris ses 40 échecs, ce qui offre une transparence sur ses caractéristiques de performance et ses cas d'échec, tels que les blocages anti-bots au niveau de l'infrastructure rencontrés sur des sites comme apartments.com.
Les développeurs à la recherche d'un outil robuste d'automatisation web trouveront intéressant le dépôt de recettes open-source de TinyFish, qui donne un aperçu de son architecture et de sa méthodologie d'exécution.
📖 Lire la source complète : HN AI Agents
👀 See Also

FFF - Fast File Finder revendique un avantage de vitesse 100 fois supérieur à ripgrep.
FFF (Fast File Finder) est un outil de recherche de fichiers basé sur le web qui prétend être 100 fois plus rapide que ripgrep, se positionnant comme une alternative de nouvelle génération aux méthodes de recherche basées sur les expressions régulières. L'outil nécessite JavaScript pour fonctionner et a récemment été discuté sur Hacker News avec 36 points et 17 commentaires.

tmux-IDE : Un IDE multi-agents en terminal pour Claude
tmux-IDE est un IDE terminal open-source et déclaratif axé sur l'ingénierie agentique qui crée des dispositions multi-agents pour les agents de codage Claude. Il permet aux développeurs de démarrer leur IDE via SSH, de donner des instructions à Claude et d'éteindre leur machine pendant que Claude continue à travailler dans des sessions tmux.

OS Agent Creux : Les travailleurs IA locaux appellent Claude en tant qu'architecte senior en cas de blocage
Hollow Agent OS utilise des modèles Qwen locaux qui fonctionnent 24h/24, mais lorsqu'ils rencontrent des erreurs logiques ou ont besoin de changements majeurs, ils déclenchent un appel Claude via MCP. Claude réorganise les structures de fichiers, révise le code et agit comme un gestionnaire pour les travailleurs locaux autonomes.

Interface chatbot monopage pour Gemma 4 26B A4B fonctionnant localement
Un développeur a créé un chatbot sur une seule page HTML conçu pour fonctionner avec Gemma 4 26B A4B exécuté localement. L'implémentation se connecte à l'API de LM Studio et fournit une interface complète de chatbot dans un seul fichier HTML.