TinyFish Web Agent 81.9%成功率、OpenAI超え

TinyFishウェブエージェントは、複雑なウェブタスクの解決において優れたツールであることが証明され、136のライブウェブサイトにわたる300のタスクからなるOnline-Mind2Webベンチマークにおいて、困難なタスクで81.9%の成功率を達成しました。この数値は、OpenAI Operatorのような主要な競合が同様のタスクでわずか43.2%の成功率しか達成できなかったことと、鮮明に対照的です。

Online-Mind2Webベンチマークは、ウェブエージェントの能力を厳密に測定するもので、マリオットでのクレジットカードオファーの閲覧といった簡単なタスクから、動的価格設定でのイベントチケット予約といった複雑な課題まで、幅広いタスクでテストします。タスクには、フォーム検証やポップアップの処理を含むライブウェブサイトでの複数ステップが含まれており、WebVoyagerのような信頼性の低い他のベンチマークと比較して現実的なテストとなっています。

TinyFishは、複合エラーを効果的に処理することで他と差別化しています。簡単なタスクから困難なタスクへの低下はわずか15.6ポイントであり、他のシステムに見られる大幅な低下と比べて、実世界のシナリオにおける堅牢性が際立っています。特に、apartments.comのようなサイトで遭遇したインフラレベルのアンチボットブロックを含む40の失敗例も含む、300のタスク実行すべてを公開しており、その性能特性と失敗ケースについて透明性を提供しています。

堅牢なウェブ自動化ツールを探している開発者は、TinyFishのオープンソースクックブックリポジトリに興味を持つでしょう。これは、そのアーキテクチャと実行方法論に関する洞察を提供します。

📖 全文を読む: HN AI Agents

TinyFish Web Agent、Webタスクベンチマークで競合を上回る

👀 See Also

VoidLLM：OllamaとvLLMのためのゼロ知識プロキシ、チームアクセス制御付き

タスクオブザーバー: AIコーディングエージェントのスキル向上を自動化するメタスキル

OctoArch v5.0：JSONベースのAIペルソナを備えたゼロトラストB2Bランタイム

オープンソースのビジルツールがOpenClawエコシステムにおけるエージェントアイデンティティ問題に取り組む