AgentCrawl-Update fügt wichtige Crawler-Funktionen und -Verbesserungen hinzu.

Das neueste Update von AgentCrawl verbessert die Funktionalität als TypeScript-Scraper/Crawler und führt mehrere wichtige Funktionen für Entwickler ein, die KI-Agenten verwenden. Dieses Release konzentriert sich auf die Produktionsbereitschaft, indem die Korrektheit und Höflichkeit von Crawlern, Caching-Mechanismen, fortsetzbare Crawls und verbesserte Datenextraktionsfähigkeiten integriert werden.
Wichtige Details
- Entfernte Tool-Adapter: Das Update entfernt die Tool-Adapter für das Agents SDK und das Vercel AI SDK, sodass Benutzer ihre Tools unabhängig definieren können.
- Aktualisierte Bibliotheken: Das Paket enthält jetzt die neueste Version von Zod für eine bessere Datenvalidierung.
- Korrektheit des Crawlers: Die Einhaltung von robots.txt ist jetzt optional und unterstützt die Direktiven Disallow/Allow und Crawl-delay. Optionales Sitemap-Seeding aus
/sitemap.xmlist ebenfalls verfügbar. - URL-Normalisierung: Die verbesserte URL-Normalisierung entfernt umfassend Tracking-Parameter und kann die kanonische Normalisierung verarbeiten.
- Drosselungsoptionen: Der Crawler unterstützt die Drosselung pro Host mit konfigurierbarer
perHostConcurrencyundminDelayMs. - Caching: Ein optionaler Disk-HTTP-Cache für statische Abrufe implementiert ETag- und Last-Modified-Unterstützung. Das System cached die Nachbearbeitung und Markdown-Konvertierung von
ScrapedPageund kann Serverantworten mit dem Status 304 verarbeiten, indem es zwischengespeicherte Inhalte bereitstellt. - Fortsetzbare Crawls: Eine neue optionale crawlState-Persistenz speichert die Grenze des Crawls, einschließlich der Warteschlange, besuchter Seiten, geordneter Elemente, Fehler und maximaler Tiefe, was fortsetzbare Crawls ohne erneutes Besuchen von Seiten ermöglicht.
- Verbesserungen der Datenextraktion: Der Scraper unterstützt jetzt die strukturierte Extraktion von Metadaten, einschließlich kanonischer URL, OpenGraph, Twitter-Karten und JSON-LD, die in
metadata.structuredgespeichert werden. - Chunking für Agenten: Die optionale Chunking-Funktionalität gibt
page.chunks[]mit einer ungefähren Token-Größe, Überschriftspfad und Zitationsanker zurück, was für RAG/Tool-Schleifen vorteilhaft ist.
Für wen es gedacht ist
Dieses Update ist besonders vorteilhaft für Entwickler, die KI-Agenten nutzen und effiziente sowie strukturierte Web-Scraping-Fähigkeiten benötigen.
📖 Den vollständigen Source lesen: r/LocalLLaMA
👀 Siehe auch

DESIGN.md: Ein Formatspezifikation zur Beschreibung visueller Identität für Coding-Agenten
DESIGN.md kombiniert YAML-Design-Tokens mit Markdown-Prosa, um KI-Codierungsagenten ein persistentes, strukturiertes Verständnis eines Designsystems zu geben. Enthält einen Linter und ein Diff-Tool.

Offenes Design: Open-Source-Alternative zu Claude Design läuft auf Ihren lokalen CLI-Agenten
Open Design ist eine lokale, BYOK-Design-Engine, die 11 Coding-Agent-CLIs (Claude Code, Codex, Cursor, Gemini CLI usw.) in einen Design-Workflow mit 72 Marken-Design-Systemen und 31 kombinierbaren Fähigkeiten verwandelt und HTML/PDF/PPTX/MP4 exportiert.

Parallele Coding-Agenten mit tmux und Markdown-Spezifikationen
Manuel Schipper beschreibt ein System zum Betrieb von 4-8 parallelen Coding-Agenten mit tmux, Markdown-Dateien, Bash-Aliases und sechs Slash-Befehlen. Das Setup nutzt Feature-Design (FD)-Markdown-Spezifikationen, die durch einen 8-stufigen Lebenszyklus verfolgt werden.

Vibeyard fügt Kanban-Board zur Verwaltung mehrerer Claude-Code-Sitzungen hinzu
Eine Open-Source-IDE namens Vibeyard enthält jetzt ein Kanban-Board, mit dem Sie direkt von Karten aus Claude Code Agent-Sitzungen starten können. Karten werden automatisch in „Erledigt“ verschoben, wenn der Agent fertig ist.