Atualização do AgentCrawl Adiciona Recursos e Melhorias Críticas ao Rastreador

A última atualização do AgentCrawl aprimora sua funcionalidade como um scraper/rastreador TypeScript, introduzindo vários recursos importantes para desenvolvedores que usam agentes de IA. Esta versão foca na prontidão para produção integrando correção e cortesia do rastreador, mecanismos de cache, rastreamentos retomáveis e capacidades aprimoradas de extração de dados.
Detalhes Principais
- Adaptadores de Ferramentas Removidos: A atualização elimina os adaptadores de ferramentas para o SDK de agentes e o Vercel AI SDK, permitindo que os usuários definam suas ferramentas independentemente.
- Bibliotecas Atualizadas: O pacote agora inclui a versão mais recente do Zod para melhor validação de dados.
- Correção do Rastreador: A conformidade com robots.txt agora é opcional e suporta diretivas Disallow/Allow e Crawl-delay. A semeadura opcional de sitemap a partir de
/sitemap.xmltambém está disponível. - Normalização de URL: A normalização de URL aprimorada remove abrangentemente parâmetros de rastreamento e pode lidar com normalização canônica.
- Opções de Limitação: O rastreador suporta limitação por host com
perHostConcurrencyeminDelayMsconfiguráveis. - Cache: Um cache HTTP em disco opcional para buscas estáticas implementa suporte a ETag e Last-Modified. O sistema armazena em cache a limpeza pós-processamento e conversão para markdown de
ScrapedPagee pode lidar com respostas do servidor com status 304 servindo corpos em cache. - Rastreamentos Retomáveis: Uma nova persistência opcional de crawlState salva a fronteira do rastreamento, incluindo a fila, páginas visitadas, itens enfileirados, erros e profundidade máxima, o que permite rastreamentos retomáveis sem re-visitar páginas.
- Melhorias na Extração de Dados: O scraper agora suporta extração estruturada de metadados, incluindo URL Canônica, OpenGraph, cartões do Twitter e JSON-LD, mantidos em
metadata.structured. - Divisão para Agentes: A funcionalidade opcional de divisão retorna
page.chunks[]com um tamanho aproximado de token, caminho de cabeçalho e âncora de citação, o que é benéfico para loops RAG/ferramentas.
Para Quem É
Esta atualização é particularmente benéfica para desenvolvedores que utilizam agentes de IA que requerem capacidades de raspagem web eficientes e estruturadas.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Culpa: Motor de Reprodução Determinístico de Código Aberto para Depuração de Agentes de IA
Culpa é uma ferramenta de código aberto que grava sessões de agentes LLM com contexto completo de execução, permitindo reprodução determinística usando respostas gravadas como stubs em vez de acessar APIs reais. Funciona com APIs da Anthropic e OpenAI via modo proxy ou SDK Python.

MCP como Interface de Observabilidade: Conectando Agentes de IA a Pontos de Rastreamento do Kernel
O Model Context Protocol (MCP) está surgindo como a interface entre agentes de IA e telemetria de infraestrutura, com a Datadog lançando um servidor MCP e a Qualys sinalizando preocupações de segurança. O artigo explora duas abordagens: envolver plataformas existentes ou criar observabilidade nativa MCP que se conecta diretamente aos pontos de rastreamento do kernel.

Script e Fluxo de Trabalho de Fusão de Modelos GGUF para Variantes do Qwen3.5-35B
Um usuário do Reddit compartilhou um script Python para mesclar arquivos de modelo GGUF com perda mínima, especificamente combinando o modelo Qwen3.5-35B-A3B-Uncensored do HauhauCS com a versão Claude-4.6-Opus-Reasoning-Distilled do samuelcardillo. O script roda no Google Colab Free Tier e inclui suporte à quantização via llama-quantize.

CtxSnap Extensão do VS Code Rastreia Alterações de Arquivos para Sessões do Claude
CtxSnap é uma extensão do VS Code que rastreia quais arquivos foram alterados desde sua última sessão com o Claude e os empacota em um bloco de transferência pronto para colar, com conteúdo dos arquivos e uma barra de orçamento de tokens calibrada para a janela de contexto de 200k do Claude.