AgentCrawl-Update fügt wichtige Crawler-Funktionen und -Verbesserungen hinzu.

✍️ OpenClawRadar📅 Veröffentlicht: 13. Februar 2026🔗 Source
AgentCrawl-Update fügt wichtige Crawler-Funktionen und -Verbesserungen hinzu.
Ad

Das neueste Update von AgentCrawl verbessert die Funktionalität als TypeScript-Scraper/Crawler und führt mehrere wichtige Funktionen für Entwickler ein, die KI-Agenten verwenden. Dieses Release konzentriert sich auf die Produktionsbereitschaft, indem die Korrektheit und Höflichkeit von Crawlern, Caching-Mechanismen, fortsetzbare Crawls und verbesserte Datenextraktionsfähigkeiten integriert werden.

Wichtige Details

  • Entfernte Tool-Adapter: Das Update entfernt die Tool-Adapter für das Agents SDK und das Vercel AI SDK, sodass Benutzer ihre Tools unabhängig definieren können.
  • Aktualisierte Bibliotheken: Das Paket enthält jetzt die neueste Version von Zod für eine bessere Datenvalidierung.
  • Korrektheit des Crawlers: Die Einhaltung von robots.txt ist jetzt optional und unterstützt die Direktiven Disallow/Allow und Crawl-delay. Optionales Sitemap-Seeding aus /sitemap.xml ist ebenfalls verfügbar.
  • URL-Normalisierung: Die verbesserte URL-Normalisierung entfernt umfassend Tracking-Parameter und kann die kanonische Normalisierung verarbeiten.
  • Drosselungsoptionen: Der Crawler unterstützt die Drosselung pro Host mit konfigurierbarer perHostConcurrency und minDelayMs.
  • Caching: Ein optionaler Disk-HTTP-Cache für statische Abrufe implementiert ETag- und Last-Modified-Unterstützung. Das System cached die Nachbearbeitung und Markdown-Konvertierung von ScrapedPage und kann Serverantworten mit dem Status 304 verarbeiten, indem es zwischengespeicherte Inhalte bereitstellt.
  • Fortsetzbare Crawls: Eine neue optionale crawlState-Persistenz speichert die Grenze des Crawls, einschließlich der Warteschlange, besuchter Seiten, geordneter Elemente, Fehler und maximaler Tiefe, was fortsetzbare Crawls ohne erneutes Besuchen von Seiten ermöglicht.
  • Verbesserungen der Datenextraktion: Der Scraper unterstützt jetzt die strukturierte Extraktion von Metadaten, einschließlich kanonischer URL, OpenGraph, Twitter-Karten und JSON-LD, die in metadata.structured gespeichert werden.
  • Chunking für Agenten: Die optionale Chunking-Funktionalität gibt page.chunks[] mit einer ungefähren Token-Größe, Überschriftspfad und Zitationsanker zurück, was für RAG/Tool-Schleifen vorteilhaft ist.
Ad

Für wen es gedacht ist

Dieses Update ist besonders vorteilhaft für Entwickler, die KI-Agenten nutzen und effiziente sowie strukturierte Web-Scraping-Fähigkeiten benötigen.

📖 Den vollständigen Source lesen: r/LocalLLaMA

Ad

👀 Siehe auch