Обновление AgentCrawl добавляет важные функции и улучшения для паука.

Последнее обновление AgentCrawl улучшает его функциональность как веб-скребка/обходчика на TypeScript, вводя несколько важных функций для разработчиков, использующих ИИ-агентов. Этот релиз сосредоточен на готовности к производству за счет интеграции правильности обходчика и вежливости, механизмов кэширования, возобновляемых обходов и улучшенных возможностей извлечения данных.
Ключевые детали
- Удаленные адаптеры инструментов: Обновление устраняет адаптеры инструментов для SDK агентов и Vercel AI SDK, позволяя пользователям самостоятельно определять свои инструменты.
- Обновленные библиотеки: Пакет теперь включает последнюю версию Zod для лучшей валидации данных.
- Правильность обходчика: Соблюдение robots.txt теперь опционально и поддерживает директивы Disallow/Allow и Crawl-delay. Также доступно опциональное заполнение карты сайта из
/sitemap.xml. - Нормализация URL: Улучшенная нормализация URL полноценно удаляет параметры отслеживания и может обрабатывать каноническую нормализацию.
- Опции ограничения: Обходчик поддерживает ограничение для каждого хоста с настраиваемыми
perHostConcurrencyиminDelayMs. - Кэширование: Опциональный диск HTTP кэш для статических загрузок реализует поддержку ETag и Last-Modified. Система кэширует после очистки и конверсии в markdown
ScrapedPageи может обрабатывать серверные ответы со статусом 304, обслуживая кэшированные тела. - Возобновляемые обходы: Новая опциональная функциональность сохранения состояния обхода сохраняет границу обхода, включая очередь, посещенные страницы, запланированные элементы, ошибки и максимальную глубину, что позволяет возобновлять обходы без повторного посещения страниц.
- Улучшения извлечения данных: Скребок теперь поддерживает извлечение структурированных метаданных, включая канонический URL, OpenGraph, Twitter карты и JSON-LD, хранящиеся в
metadata.structured. - Частичная обработка для агентов: Опциональная функциональность частичной обработки возвращает
page.chunks[]с приблизительным размером токена, путем заголовка и якорем цитирования, что полезно для циклов RAG/tool.
Для кого это
Это обновление особенно полезно для разработчиков, использующих ИИ-агентов, которым требуются эффективные и структурированные возможности веб-скрапинга.
📖 Читать источник: r/LocalLLaMA
👀 Смотрите также

Создание саморазвивающейся системы знаний с помощью Claude Code и Obsidian
Разработчик создал систему из 25 инструментов, которая обеспечивает Claude Code постоянную память через семантический поиск, графы знаний и интервальное повторение на основе хранилища Obsidian. Система индексирует контент с помощью эмбеддингов bge-m3, обнаруживает противоречия, автоматически удаляет устаревшие заметки и генерирует карты Obsidian Canvas.

UK Sovereign LLM Inference: Relax.ai публикует публичные документы
Relax.ai опубликовал документацию для UK sovereign LLM inference, перенаправляя на /docs/getting-started/introduction. Сервис был опубликован на HN с 104 баллами.

ClawWatcher достиг отметки в 200 пользователей, сообщив о совокупной экономии более $28K на API OpenClaw.
ClawWatcher, инструмент для отслеживания затрат на API OpenClaw в реальном времени, достиг 200 пользователей. По словам его создателя, пользователи в совокупности сэкономили более 28 000 долларов на затратах на API, со средним снижением расходов на 45%.

В шаблонах рабочих процессов Claude шаблон передачи задач: разделение на два файла против сводки одного документа
Длительные сессии с Claude страдают от потери контекста. Handoffs сжимают важное и начинают заново. Два подхода: навык handoff Мэтта Покока в одном документе и разделение на два файла с постоянным повествованием и временным промптом.