AgentCrawl: Robots.txt, Cache e Rastreamentos Retomáveis

A última atualização do AgentCrawl aprimora sua funcionalidade como um scraper/rastreador TypeScript, introduzindo vários recursos importantes para desenvolvedores que usam agentes de IA. Esta versão foca na prontidão para produção integrando correção e cortesia do rastreador, mecanismos de cache, rastreamentos retomáveis e capacidades aprimoradas de extração de dados.

Detalhes Principais

Adaptadores de Ferramentas Removidos: A atualização elimina os adaptadores de ferramentas para o SDK de agentes e o Vercel AI SDK, permitindo que os usuários definam suas ferramentas independentemente.
Bibliotecas Atualizadas: O pacote agora inclui a versão mais recente do Zod para melhor validação de dados.
Correção do Rastreador: A conformidade com robots.txt agora é opcional e suporta diretivas Disallow/Allow e Crawl-delay. A semeadura opcional de sitemap a partir de /sitemap.xml também está disponível.
Normalização de URL: A normalização de URL aprimorada remove abrangentemente parâmetros de rastreamento e pode lidar com normalização canônica.
Opções de Limitação: O rastreador suporta limitação por host com perHostConcurrency e minDelayMs configuráveis.
Cache: Um cache HTTP em disco opcional para buscas estáticas implementa suporte a ETag e Last-Modified. O sistema armazena em cache a limpeza pós-processamento e conversão para markdown de ScrapedPage e pode lidar com respostas do servidor com status 304 servindo corpos em cache.
Rastreamentos Retomáveis: Uma nova persistência opcional de crawlState salva a fronteira do rastreamento, incluindo a fila, páginas visitadas, itens enfileirados, erros e profundidade máxima, o que permite rastreamentos retomáveis sem re-visitar páginas.
Melhorias na Extração de Dados: O scraper agora suporta extração estruturada de metadados, incluindo URL Canônica, OpenGraph, cartões do Twitter e JSON-LD, mantidos em metadata.structured.
Divisão para Agentes: A funcionalidade opcional de divisão retorna page.chunks[] com um tamanho aproximado de token, caminho de cabeçalho e âncora de citação, o que é benéfico para loops RAG/ferramentas.

Para Quem É

Esta atualização é particularmente benéfica para desenvolvedores que utilizam agentes de IA que requerem capacidades de raspagem web eficientes e estruturadas.

📖 Leia a fonte completa: r/LocalLLaMA

Atualização do AgentCrawl Adiciona Recursos e Melhorias Críticas ao Rastreador

Detalhes Principais

Para Quem É

👀 See Also

Biblioteca de Prompts para Agentes de IA de Código Aberto Atinge 100 Estrelas no GitHub

Desenvolvedor Alcança Latência Sub-Segundo em STT/TTS com Servidores Locais de Whisper e Coqui-TTS

Claude-Code v2.1.111 adiciona o Opus 4.7 xhigh effort, /ultrareview e a ferramenta PowerShell

Brand-Docs: Ferramenta Open-Source para o Claude Gerar DOCX, PPTX, XLSX a partir de Modelos