Actualización de AgentCrawl Agrega Características y Mejoras Críticas del Crawler

La última actualización de AgentCrawl mejora su funcionalidad como un scraper/rastreador de TypeScript, introduciendo varias características importantes para los desarrolladores que utilizan agentes de IA. Esta versión se centra en la preparación para producción al integrar la corrección y cortesía del rastreador, mecanismos de almacenamiento en caché, rastreos reanudables y capacidades mejoradas de extracción de datos.
Detalles Clave
- Removed Tool Adapters: La actualización elimina los adaptadores de herramienta para el SDK de agentes y el SDK de Vercel AI, permitiendo a los usuarios definir sus herramientas de manera independiente.
- Updated Libraries: El paquete ahora incluye la última versión de Zod para una mejor validación de datos.
- Crawler Correctness: La compatibilidad con robots.txt ahora es opcional y admite las directivas Disallow/Allow y Crawl-delay. La siembra de sitemap opcional desde
/sitemap.xmltambién está disponible. - URL Normalization: La normalización de URL mejorada elimina exhaustivamente los parámetros de seguimiento y puede manejar la normalización canónica.
- Throttling Options: El rastreador admite limitación por host con
perHostConcurrencyyminDelayMsconfigurables. - Caching: Un caché HTTP en disco opcional para fetches estáticos implementa soporte para ETag y Last-Modified. El sistema almacena en caché la limpieza posterior y la conversión de markdown de
ScrapedPagey puede manejar respuestas del servidor con estado 304 sirviendo cuerpos en caché. - Resumable Crawls: Una nueva persistencia de crawlState opcional guarda la frontera del rastreo, incluyendo la cola, páginas visitadas, elementos en cola, errores y profundidad máxima, lo que permite rastreos reanudables sin volver a visitar páginas.
- Data Extraction Improvements: El scraper ahora admite la extracción de metadatos estructurados, incluyendo URL canónica, OpenGraph, tarjetas de Twitter y JSON-LD, mantenidos en
metadata.structured. - Chunking for Agents: La funcionalidad de chunking opcional devuelve
page.chunks[]con un tamaño aproximado de token, ruta de encabezado y ancla de citación, lo cual es beneficioso para ciclos RAG/herramientas.
Para Quién Es
Esta actualización es particularmente beneficiosa para los desarrolladores que utilizan agentes de IA que requieren capacidades de web scraping eficientes y estructuradas.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

RelayCode Extensión de VS Code Enruta el Código de Claude a Través de RDUs Soberanos
OpenGPU ha lanzado RelayCode, una extensión de VS Code que actúa como un proxy local para redirigir solicitudes de Claude Code o Copilot a través de su red descentralizada hacia modelos de código abierto como DeepSeek-R1 y MiniMax M2.5, ejecutándose en unidades de flujo de datos reconfigurables soberanas.

Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución
Un desarrollador construyó una canalización utilizando Claude 3.5 Sonnet para la planificación de tareas y modelos locales Qwen2.5-Coder a través de Ollama para la generación de código, logrando una reducción del 85% en tokens en comparación con usar solo Claude.

Cavernícola: Una Habilidad de Código de Claude que Reduce un 75% de Tokens Usando Habla al Estilo Cavernícola
Caveman es una habilidad de Claude Code que reduce el uso de tokens en aproximadamente un 75% al hacer que Claude responda en un estilo conciso, similar al de un cavernícola, manteniendo la precisión técnica completa. Se instala mediante npx o el mercado de complementos de Claude.

Cómo los asistentes de IA obtienen páginas web: Análisis de registros de Nginx de ChatGPT, Claude, Gemini y otros
Un desarrollador probó cinco asistentes de IA principales al proporcionarles URLs únicas y monitorear los registros de Nginx, revelando patrones de recuperación distintos: ChatGPT, Claude y Perplexity utilizan agentes de usuario dedicados, mientras que Gemini respondió desde su índice sin realizar ninguna recuperación.