TinyFish Web Agent übertrifft Wettbewerber bei der Web-Task-Benchmarking.

✍️ OpenClawRadar📅 Veröffentlicht: 13. Februar 2026🔗 Source
TinyFish Web Agent übertrifft Wettbewerber bei der Web-Task-Benchmarking.
Ad

Der TinyFish Web Agent hat sich als führendes Tool zur Bewältigung komplexer Web-Aufgaben erwiesen und erreichte eine Erfolgsquote von 81,9 % bei schwierigen Aufgaben im Online-Mind2Web-Benchmark, der aus 300 Aufgaben auf 136 aktiven Websites besteht. Diese Zahl steht im krassen Gegensatz zu wichtigen Wettbewerbern wie OpenAI Operator, der nur eine Erfolgsquote von 43,2 % bei ähnlichen Aufgaben erzielte.

Der Online-Mind2Web-Benchmark ist ein strenges Maß für die Fähigkeiten eines Web-Agenten und testet sie bei Aufgaben, die von einfachen, wie dem Durchstöbern von Kreditkartenangeboten bei Marriott, bis hin zu komplexen Herausforderungen, wie der Buchung von Veranstaltungstickets mit dynamischer Preissetzung, reichen. Die Aufgaben umfassen mehrere Schritte mit aktiven Websites, darunter das Handling von Formularvalidierungen und Pop-ups, was es zu einem realistischen Test im Vergleich zu anderen weniger zuverlässigen Benchmarks wie WebVoyager macht.

Ad

TinyFish zeichnet sich dadurch aus, dass es kumulierte Fehler effektiv handhabt. Es verliert nur 15,6 Punkte von einfachen zu schwierigen Aufgaben im Vergleich zu massiven Einbrüchen, die andere Systeme zeigen, was seine Robustheit in realen Szenarien hervorhebt. Erwähnenswert ist, dass es alle 300 Aufgabenausführungen veröffentlicht hat, einschließlich der 40 Fehlschläge, was Transparenz über seine Leistungsmerkmale und Fehlerfälle bietet, wie zum Beispiel Infrastruktur-Blockaden auf Websites wie apartments.com.

Entwickler, die nach einem robusten Tool zur Webautomatisierung suchen, könnten an TinyFishs Open-Source-Kochbuch-Repository interessiert sein, das Einblicke in seine Architektur und Ausführungsmethodik bietet.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

Ad

👀 Siehe auch

Session Inspector für Claude Code bietet Echtzeit-Einblicke in die Abläufe von KI-Agenten.
Werkzeuge

Session Inspector für Claude Code bietet Echtzeit-Einblicke in die Abläufe von KI-Agenten.

Vibeyard, eine Open-Source-Terminal-IDE, die Claude Code einbindet, hat eine Session Inspector-Funktion hinzugefügt, die Echtzeit-Einblicke in Claude Code-Sitzungen mit Zeitachsenverfolgung, Kostenaufschlüsselung, Tool-Analysen und Kontextfensterüberwachung bietet.

OpenClawRadar
Bin ich OpenAI-kompatibel: Tool & Dokumentation für einheitliche API-Signaturen
Werkzeuge

Bin ich OpenAI-kompatibel: Tool & Dokumentation für einheitliche API-Signaturen

Ein neues Tool und eine Dokumentationsseite dokumentieren die OpenAI-Kompatibilität von Open-Source-KI-Engines wie vLLM und llama.cpp, einschließlich offizieller und inoffizieller Signaturen.

OpenClawRadar
read-once: Ein Claude-Code-Hook, der redundante Dateizugriffe verhindert
Werkzeuge

read-once: Ein Claude-Code-Hook, der redundante Dateizugriffe verhindert

Ein Entwickler hat einen PreToolUse-Hook namens read-once erstellt, der verfolgt, welche Dateien Claude Code bereits in einer Sitzung gelesen hat. Er blockiert das erneute Lesen unveränderter Dateien und nutzt Diffs für geänderte Dateien. Das Tool spart tausende von Tokens pro Sitzung, indem es verhindert, dass Claude wiederholt denselben Dateiinhalt liest.

OpenClawRadar
FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar
Werkzeuge

FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar

FOMOE (Fast Opportunistic Mixture of Experts) ermöglicht es, Qwen3.5s Flaggschiffmodell mit 397 Milliarden Parametern mit einer Geschwindigkeit von 5-9 Tokens/Sekunde auf Consumer-Hardware zu betreiben, und zwar mit zwei 500-Dollar-GPUs, 32 GB RAM und einem NVMe-Laufwerk unter Verwendung von Q4_K_M-Quantisierung.

OpenClawRadar