AgentCrawl обновление: robots.txt, кэш, возобновление, метаданные

Последнее обновление AgentCrawl улучшает его функциональность как веб-скребка/обходчика на TypeScript, вводя несколько важных функций для разработчиков, использующих ИИ-агентов. Этот релиз сосредоточен на готовности к производству за счет интеграции правильности обходчика и вежливости, механизмов кэширования, возобновляемых обходов и улучшенных возможностей извлечения данных.

Ключевые детали

Удаленные адаптеры инструментов: Обновление устраняет адаптеры инструментов для SDK агентов и Vercel AI SDK, позволяя пользователям самостоятельно определять свои инструменты.
Обновленные библиотеки: Пакет теперь включает последнюю версию Zod для лучшей валидации данных.
Правильность обходчика: Соблюдение robots.txt теперь опционально и поддерживает директивы Disallow/Allow и Crawl-delay. Также доступно опциональное заполнение карты сайта из /sitemap.xml.
Нормализация URL: Улучшенная нормализация URL полноценно удаляет параметры отслеживания и может обрабатывать каноническую нормализацию.
Опции ограничения: Обходчик поддерживает ограничение для каждого хоста с настраиваемыми perHostConcurrency и minDelayMs.
Кэширование: Опциональный диск HTTP кэш для статических загрузок реализует поддержку ETag и Last-Modified. Система кэширует после очистки и конверсии в markdown ScrapedPage и может обрабатывать серверные ответы со статусом 304, обслуживая кэшированные тела.
Возобновляемые обходы: Новая опциональная функциональность сохранения состояния обхода сохраняет границу обхода, включая очередь, посещенные страницы, запланированные элементы, ошибки и максимальную глубину, что позволяет возобновлять обходы без повторного посещения страниц.
Улучшения извлечения данных: Скребок теперь поддерживает извлечение структурированных метаданных, включая канонический URL, OpenGraph, Twitter карты и JSON-LD, хранящиеся в metadata.structured.
Частичная обработка для агентов: Опциональная функциональность частичной обработки возвращает page.chunks[] с приблизительным размером токена, путем заголовка и якорем цитирования, что полезно для циклов RAG/tool.

Для кого это

Это обновление особенно полезно для разработчиков, использующих ИИ-агентов, которым требуются эффективные и структурированные возможности веб-скрапинга.

📖 Читать источник: r/LocalLLaMA

Обновление AgentCrawl добавляет важные функции и улучшения для паука.

Ключевые детали

Для кого это

👀 Смотрите также

alogin: Безопасный шлюз на основе Go для ИИ-агентов с участием человека в процессе

Разработчик создает плагин MCP для WordPress с возможностями чтения/записи и 28 функциями.

Приложение Focusmo для macOS добавило локальный MCP-сервер для интеграции с Claude AI.

Губернатор: Плагин для Claude Code, сокращающий расход токенов за счет сжатия вывода, уменьшения контекста и фильтрации инструментов