Actualización de AgentCrawl Agrega Características y Mejoras Críticas del Crawler

✍️ OpenClawRadar📅 Publicado: 13 de febrero de 2026🔗 Source
Actualización de AgentCrawl Agrega Características y Mejoras Críticas del Crawler
Ad

La última actualización de AgentCrawl mejora su funcionalidad como un scraper/rastreador de TypeScript, introduciendo varias características importantes para los desarrolladores que utilizan agentes de IA. Esta versión se centra en la preparación para producción al integrar la corrección y cortesía del rastreador, mecanismos de almacenamiento en caché, rastreos reanudables y capacidades mejoradas de extracción de datos.

Ad

Detalles Clave

  • Removed Tool Adapters: La actualización elimina los adaptadores de herramienta para el SDK de agentes y el SDK de Vercel AI, permitiendo a los usuarios definir sus herramientas de manera independiente.
  • Updated Libraries: El paquete ahora incluye la última versión de Zod para una mejor validación de datos.
  • Crawler Correctness: La compatibilidad con robots.txt ahora es opcional y admite las directivas Disallow/Allow y Crawl-delay. La siembra de sitemap opcional desde /sitemap.xml también está disponible.
  • URL Normalization: La normalización de URL mejorada elimina exhaustivamente los parámetros de seguimiento y puede manejar la normalización canónica.
  • Throttling Options: El rastreador admite limitación por host con perHostConcurrency y minDelayMs configurables.
  • Caching: Un caché HTTP en disco opcional para fetches estáticos implementa soporte para ETag y Last-Modified. El sistema almacena en caché la limpieza posterior y la conversión de markdown de ScrapedPage y puede manejar respuestas del servidor con estado 304 sirviendo cuerpos en caché.
  • Resumable Crawls: Una nueva persistencia de crawlState opcional guarda la frontera del rastreo, incluyendo la cola, páginas visitadas, elementos en cola, errores y profundidad máxima, lo que permite rastreos reanudables sin volver a visitar páginas.
  • Data Extraction Improvements: El scraper ahora admite la extracción de metadatos estructurados, incluyendo URL canónica, OpenGraph, tarjetas de Twitter y JSON-LD, mantenidos en metadata.structured.
  • Chunking for Agents: La funcionalidad de chunking opcional devuelve page.chunks[] con un tamaño aproximado de token, ruta de encabezado y ancla de citación, lo cual es beneficioso para ciclos RAG/herramientas.

Para Quién Es

Esta actualización es particularmente beneficiosa para los desarrolladores que utilizan agentes de IA que requieren capacidades de web scraping eficientes y estructuradas.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

RelayCode Extensión de VS Code Enruta el Código de Claude a Través de RDUs Soberanos
Herramientas

RelayCode Extensión de VS Code Enruta el Código de Claude a Través de RDUs Soberanos

OpenGPU ha lanzado RelayCode, una extensión de VS Code que actúa como un proxy local para redirigir solicitudes de Claude Code o Copilot a través de su red descentralizada hacia modelos de código abierto como DeepSeek-R1 y MiniMax M2.5, ejecutándose en unidades de flujo de datos reconfigurables soberanas.

OpenClawRadar
Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución
Herramientas

Desarrollador comparte flujo de trabajo híbrido de codificación con IA: Claude para planificación, modelos locales para ejecución

Un desarrollador construyó una canalización utilizando Claude 3.5 Sonnet para la planificación de tareas y modelos locales Qwen2.5-Coder a través de Ollama para la generación de código, logrando una reducción del 85% en tokens en comparación con usar solo Claude.

OpenClawRadar
Cavernícola: Una Habilidad de Código de Claude que Reduce un 75% de Tokens Usando Habla al Estilo Cavernícola
Herramientas

Cavernícola: Una Habilidad de Código de Claude que Reduce un 75% de Tokens Usando Habla al Estilo Cavernícola

Caveman es una habilidad de Claude Code que reduce el uso de tokens en aproximadamente un 75% al hacer que Claude responda en un estilo conciso, similar al de un cavernícola, manteniendo la precisión técnica completa. Se instala mediante npx o el mercado de complementos de Claude.

OpenClawRadar
Cómo los asistentes de IA obtienen páginas web: Análisis de registros de Nginx de ChatGPT, Claude, Gemini y otros
Herramientas

Cómo los asistentes de IA obtienen páginas web: Análisis de registros de Nginx de ChatGPT, Claude, Gemini y otros

Un desarrollador probó cinco asistentes de IA principales al proporcionarles URLs únicas y monitorear los registros de Nginx, revelando patrones de recuperación distintos: ChatGPT, Claude y Perplexity utilizan agentes de usuario dedicados, mientras que Gemini respondió desde su índice sin realizar ninguna recuperación.

OpenClawRadar