TinyFish Web Agent übertrifft Wettbewerber bei der Web-Task-Benchmarking.

✍️ OpenClawRadar📅 Veröffentlicht: 13. Februar 2026🔗 Source

Der TinyFish Web Agent hat sich als führendes Tool zur Bewältigung komplexer Web-Aufgaben erwiesen und erreichte eine Erfolgsquote von 81,9 % bei schwierigen Aufgaben im Online-Mind2Web-Benchmark, der aus 300 Aufgaben auf 136 aktiven Websites besteht. Diese Zahl steht im krassen Gegensatz zu wichtigen Wettbewerbern wie OpenAI Operator, der nur eine Erfolgsquote von 43,2 % bei ähnlichen Aufgaben erzielte.

Der Online-Mind2Web-Benchmark ist ein strenges Maß für die Fähigkeiten eines Web-Agenten und testet sie bei Aufgaben, die von einfachen, wie dem Durchstöbern von Kreditkartenangeboten bei Marriott, bis hin zu komplexen Herausforderungen, wie der Buchung von Veranstaltungstickets mit dynamischer Preissetzung, reichen. Die Aufgaben umfassen mehrere Schritte mit aktiven Websites, darunter das Handling von Formularvalidierungen und Pop-ups, was es zu einem realistischen Test im Vergleich zu anderen weniger zuverlässigen Benchmarks wie WebVoyager macht.

TinyFish zeichnet sich dadurch aus, dass es kumulierte Fehler effektiv handhabt. Es verliert nur 15,6 Punkte von einfachen zu schwierigen Aufgaben im Vergleich zu massiven Einbrüchen, die andere Systeme zeigen, was seine Robustheit in realen Szenarien hervorhebt. Erwähnenswert ist, dass es alle 300 Aufgabenausführungen veröffentlicht hat, einschließlich der 40 Fehlschläge, was Transparenz über seine Leistungsmerkmale und Fehlerfälle bietet, wie zum Beispiel Infrastruktur-Blockaden auf Websites wie apartments.com.

Entwickler, die nach einem robusten Tool zur Webautomatisierung suchen, könnten an TinyFishs Open-Source-Kochbuch-Repository interessiert sein, das Einblicke in seine Architektur und Ausführungsmethodik bietet.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

👀 Siehe auch

Werkzeuge

Kontext-Routing-Schicht reduziert Claude-Code-Token-Verbrauch durch Verfolgung aufgerufener Dateien

Ein Entwickler sparte etwa 80 US-Dollar pro Monat bei der Nutzung von Claude Code, indem er eine Kontext-Routing-Ebene hinzufügte, die verhindert, dass die KI bei Folgefragen dieselben Repository-Dateien erneut liest. Das Tool verfolgt, welche Dateien bereits aufgerufen wurden, um redundanten Token-Verbrauch zu reduzieren.

17. Apr. 2026, 11:45 UTC

OpenClawRadar

Werkzeuge

Kopf-an-Kopf-Code-Review-Experiment vergleicht drei KI-Tools an derselben Codebasis

Ein Videoexperiment testet Codex, Claude Code und Claude Code mit Sextant bei identischen Code-Review-Aufgaben, wobei Codex die Ergebnisse überprüft und bewertet, welcher Bericht wertvoller ist. Der Fokus liegt darauf, wie Workflow und Struktur beeinflussen, was die KI bemerkt und priorisiert.

4. Apr. 2026, 16:45 UTC

OpenClawRadar

Werkzeuge

Open-Source-Struktur-Halluzinationsprüfer für KI-Agenten-Pipelines

Ein neues Open-Source-Tool bietet vier Unterdrücker, um strukturelle Fehler in KI-Agenten-Pipelines zu erkennen, darunter Grounding-Erzwingung, Prompt-Injection-Erkennung, JSON-Validierung und Tool-Antwort-Verifizierung. Verfügbar als REST-API und MCP-Server mit einem kostenlosen Kontingent von 500 Anfragen/Monat.

11. März 2026, 14:45 UTC

OpenClawRadar

Werkzeuge

Benutzerdefinierter Sprachauszugsprozess für Claude-Code mit Vorlage

Ein Entwickler teilt einen dreistufigen Extraktionsprozess, um eine benutzerdefinierte Sprachfähigkeit für Claude Code zu erstellen, was zu einer 510-zeiligen SKILL.md-Datei mit Sperrlisten für LLM-typische Ausdrücke, Anti-Performativ-Regeln und format-spezifischen Sprachmodi führt. Die Open-Source-Vorlage funktioniert mit jeder Sprache anhand von 10+ Schreibproben.

24. Feb. 2026, 23:45 UTC

OpenClawRadar