TinyFish Web Agent、Webタスクベンチマークで競合を上回る

✍️ OpenClawRadar📅 公開日: February 13, 2026🔗 Source
TinyFish Web Agent、Webタスクベンチマークで競合を上回る
Ad

TinyFishウェブエージェントは、複雑なウェブタスクの解決において優れたツールであることが証明され、136のライブウェブサイトにわたる300のタスクからなるOnline-Mind2Webベンチマークにおいて、困難なタスクで81.9%の成功率を達成しました。この数値は、OpenAI Operatorのような主要な競合が同様のタスクでわずか43.2%の成功率しか達成できなかったことと、鮮明に対照的です。

Online-Mind2Webベンチマークは、ウェブエージェントの能力を厳密に測定するもので、マリオットでのクレジットカードオファーの閲覧といった簡単なタスクから、動的価格設定でのイベントチケット予約といった複雑な課題まで、幅広いタスクでテストします。タスクには、フォーム検証やポップアップの処理を含むライブウェブサイトでの複数ステップが含まれており、WebVoyagerのような信頼性の低い他のベンチマークと比較して現実的なテストとなっています。

TinyFishは、複合エラーを効果的に処理することで他と差別化しています。簡単なタスクから困難なタスクへの低下はわずか15.6ポイントであり、他のシステムに見られる大幅な低下と比べて、実世界のシナリオにおける堅牢性が際立っています。特に、apartments.comのようなサイトで遭遇したインフラレベルのアンチボットブロックを含む40の失敗例も含む、300のタスク実行すべてを公開しており、その性能特性と失敗ケースについて透明性を提供しています。

堅牢なウェブ自動化ツールを探している開発者は、TinyFishのオープンソースクックブックリポジトリに興味を持つでしょう。これは、そのアーキテクチャと実行方法論に関する洞察を提供します。

📖 全文を読む: HN AI Agents

Ad

👀 See Also

Cowork vs. Claude Chat: 文書抽出精度の比較
Tools

Cowork vs. Claude Chat: 文書抽出精度の比較

ある開発者が、140ページ以上の財務PDFからデータを抽出するために、同一のプロンプトを使用してClaude.aiチャットとCoworkをテストしました。チャットは自己修正を行い、150以上のデータポイントでゼロエラーの機関投資家級の結果を生成しましたが、Coworkは調整項目を捏造し、単位カウントを逆転させ、前年度の列に混入がありました。

OpenClawRadar
ルクズ:20万行のC++グラフデータベースを体系的テストでRustに移植
Tools

ルクズ:20万行のC++グラフデータベースを体系的テストでRustに移植

Rukuzuプロジェクトは、20万行のC++で書かれた埋め込みグラフデータベースkuzuをRustに移植するワークフローを説明しています。Claude Codeカスタムコマンドを使用して両バージョンを同時に維持し、2,700以上のテストを通じて正確性を検証します。

OpenClawRadar
続:Claudeコードで繰り返されるワークフローを自動検出するツール
Tools

続:Claudeコードで繰り返されるワークフローを自動検出するツール

Zokuは、Claude Codeのイベントシステムにフックしてセッション間のツール操作を記録し、繰り返されるワークフローパターンを特定し、それらのパターンをClaudeに通知して積極的に提案または実行できるようにするローカルツールです。設定不要、依存関係なし、すべてのデータはローカルの~/.zoku/に保存されます。

OpenClawRadar
SimSense MCPコネクターは、Claudeアーティファクトに永続的な状態を持つURLを提供します。
Tools

SimSense MCPコネクターは、Claudeアーティファクトに永続的な状態を持つURLを提供します。

SimSenseは、Claudeが生成したHTML/JS成果物を「sims」と呼ばれる永続的なURLにデプロイし、永続的な状態ストレージを提供するMCPコネクタです。このツールは、チャットウィンドウを閉じるとClaudeの出力が消えてしまうという制限に対処します。

OpenClawRadar