AgentCrawl Update: Neue Crawler-Funktionen und Verbesserungen

Das neueste Update von AgentCrawl verbessert die Funktionalität als TypeScript-Scraper/Crawler und führt mehrere wichtige Funktionen für Entwickler ein, die KI-Agenten verwenden. Dieses Release konzentriert sich auf die Produktionsbereitschaft, indem die Korrektheit und Höflichkeit von Crawlern, Caching-Mechanismen, fortsetzbare Crawls und verbesserte Datenextraktionsfähigkeiten integriert werden.

Wichtige Details

Entfernte Tool-Adapter: Das Update entfernt die Tool-Adapter für das Agents SDK und das Vercel AI SDK, sodass Benutzer ihre Tools unabhängig definieren können.
Aktualisierte Bibliotheken: Das Paket enthält jetzt die neueste Version von Zod für eine bessere Datenvalidierung.
Korrektheit des Crawlers: Die Einhaltung von robots.txt ist jetzt optional und unterstützt die Direktiven Disallow/Allow und Crawl-delay. Optionales Sitemap-Seeding aus /sitemap.xml ist ebenfalls verfügbar.
URL-Normalisierung: Die verbesserte URL-Normalisierung entfernt umfassend Tracking-Parameter und kann die kanonische Normalisierung verarbeiten.
Drosselungsoptionen: Der Crawler unterstützt die Drosselung pro Host mit konfigurierbarer perHostConcurrency und minDelayMs.
Caching: Ein optionaler Disk-HTTP-Cache für statische Abrufe implementiert ETag- und Last-Modified-Unterstützung. Das System cached die Nachbearbeitung und Markdown-Konvertierung von ScrapedPage und kann Serverantworten mit dem Status 304 verarbeiten, indem es zwischengespeicherte Inhalte bereitstellt.
Fortsetzbare Crawls: Eine neue optionale crawlState-Persistenz speichert die Grenze des Crawls, einschließlich der Warteschlange, besuchter Seiten, geordneter Elemente, Fehler und maximaler Tiefe, was fortsetzbare Crawls ohne erneutes Besuchen von Seiten ermöglicht.
Verbesserungen der Datenextraktion: Der Scraper unterstützt jetzt die strukturierte Extraktion von Metadaten, einschließlich kanonischer URL, OpenGraph, Twitter-Karten und JSON-LD, die in metadata.structured gespeichert werden.
Chunking für Agenten: Die optionale Chunking-Funktionalität gibt page.chunks[] mit einer ungefähren Token-Größe, Überschriftspfad und Zitationsanker zurück, was für RAG/Tool-Schleifen vorteilhaft ist.

Für wen es gedacht ist

Dieses Update ist besonders vorteilhaft für Entwickler, die KI-Agenten nutzen und effiziente sowie strukturierte Web-Scraping-Fähigkeiten benötigen.

📖 Den vollständigen Source lesen: r/LocalLLaMA

AgentCrawl-Update fügt wichtige Crawler-Funktionen und -Verbesserungen hinzu.

Wichtige Details

Für wen es gedacht ist

👀 Siehe auch

NarrateAI MCP Server Demo zeigt, wie Claude Videos mit Voiceover versieht

Sitefire automatisiert die KI-Suchoptimierung mit Content Agents.

OpenJet v0.4: Lokaler Coding-Agent ohne Konfiguration mit llama.cpp-Backend

Erstellen eines lokalen Sprach-KI-Assistenten mit SwiftUI und CSM-1B auf Apple Silicon