Actualización de AgentCrawl Agrega Características y Mejoras Críticas del Crawler

La última actualización de AgentCrawl mejora su funcionalidad como un scraper/rastreador de TypeScript, introduciendo varias características importantes para los desarrolladores que utilizan agentes de IA. Esta versión se centra en la preparación para producción al integrar la corrección y cortesía del rastreador, mecanismos de almacenamiento en caché, rastreos reanudables y capacidades mejoradas de extracción de datos.
Detalles Clave
- Removed Tool Adapters: La actualización elimina los adaptadores de herramienta para el SDK de agentes y el SDK de Vercel AI, permitiendo a los usuarios definir sus herramientas de manera independiente.
- Updated Libraries: El paquete ahora incluye la última versión de Zod para una mejor validación de datos.
- Crawler Correctness: La compatibilidad con robots.txt ahora es opcional y admite las directivas Disallow/Allow y Crawl-delay. La siembra de sitemap opcional desde
/sitemap.xmltambién está disponible. - URL Normalization: La normalización de URL mejorada elimina exhaustivamente los parámetros de seguimiento y puede manejar la normalización canónica.
- Throttling Options: El rastreador admite limitación por host con
perHostConcurrencyyminDelayMsconfigurables. - Caching: Un caché HTTP en disco opcional para fetches estáticos implementa soporte para ETag y Last-Modified. El sistema almacena en caché la limpieza posterior y la conversión de markdown de
ScrapedPagey puede manejar respuestas del servidor con estado 304 sirviendo cuerpos en caché. - Resumable Crawls: Una nueva persistencia de crawlState opcional guarda la frontera del rastreo, incluyendo la cola, páginas visitadas, elementos en cola, errores y profundidad máxima, lo que permite rastreos reanudables sin volver a visitar páginas.
- Data Extraction Improvements: El scraper ahora admite la extracción de metadatos estructurados, incluyendo URL canónica, OpenGraph, tarjetas de Twitter y JSON-LD, mantenidos en
metadata.structured. - Chunking for Agents: La funcionalidad de chunking opcional devuelve
page.chunks[]con un tamaño aproximado de token, ruta de encabezado y ancla de citación, lo cual es beneficioso para ciclos RAG/herramientas.
Para Quién Es
Esta actualización es particularmente beneficiosa para los desarrolladores que utilizan agentes de IA que requieren capacidades de web scraping eficientes y estructuradas.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

Revisión de Claude: Complemento de IntelliJ para Revisión de Código en Tiempo Real con Claude Code
Claude Review es un complemento de código abierto para IntelliJ que revisa automáticamente los cambios de código en cada guardado de archivo usando Claude Code. Envía diferencias de git no preparadas a Claude con mensajes personalizables y muestra los hallazgos como anotaciones nativas de IntelliJ.

Engram: Plugin de Memoria Híbrida para Agentes OpenClaw — Búsqueda Vectorial + Semántica con Decaimiento
Engram ofrece a los agentes OpenClaw memoria persistente entre sesiones usando SQLite+FTS5 para recuerdos exactos y LanceDB para búsqueda semántica, con clases de decadencia y ganchos de captura automática.

Complemento de Slack para Claude Code: Conéctate a Slack para Contexto y Actualizaciones
Slack ha lanzado un nuevo complemento para Claude Code que permite conectarse a Slack para búsquedas, mensajería y creación de documentos. El complemento permite a Claude Code acceder al contexto de Slack para resolver problemas técnicos y publicar actualizaciones.

Extensión de Chrome OpenClaw Browser Relay: Alternativa a las Configuraciones Manuales
Un usuario de Reddit informa éxito con una extensión de Chrome para el relé del navegador OpenClaw después de que los intentos de configuración manual causaran bloqueos del sistema y dolores de cabeza en la depuración.