WebClaw: Servidor MCP de Código Abierto para Extracción Web con Claude

WebClaw es un servidor MCP construido en Rust que añade capacidades de extracción web a Claude Desktop y Claude Code. Resuelve el problema donde el web_fetch incorporado de Claude es bloqueado en la mayoría de los sitios web reales, devolviendo errores 403 Prohibido, desafíos de Cloudflare o respuestas vacías.
Solución Técnica
El servidor utiliza huellas digitales TLS en la capa HTTP para que los sitios web vean una huella digital real del navegador Chrome en lugar de un bot. En pruebas realizadas en 10 sitios populares, el web_fetch incorporado de Claude falló en los 10, mientras que WebClaw extrajo contenido exitosamente de 9 de los 10 sitios.
Características
scrape: Extraer contenido limpio de cualquier URLcrawl: Rastreo recursivo de sitiosextract: Extracción de datos estructurados usando esquemas JSON o indicaciones en lenguaje naturalsummarize: Resúmenes de páginasbrand: Extraer colores, fuentes, logotipos de cualquier sitiodiff: Seguimiento de cambios en el contenido- Herramientas
map,batch,search,research
Desarrollo con Claude Code
La canalización de extracción fue implementada con Claude Code, incluyendo:
- Algoritmo de puntuación basado en densidad de texto, etiquetas semánticas y penalizaciones de proporción de enlaces
- Filtro de ruido que elimina navegación, anuncios y banners de cookies sin falsos positivos en clases de Tailwind
- Múltiples rondas de refinamiento para casos límite
Configuración y Uso
La configuración requiere un solo comando:
npx create-webclaw
La herramienta detecta automáticamente Claude Desktop y Claude Code y escribe la configuración. No se necesita clave API para 8 de las 10 herramientas, y todo se ejecuta localmente.
Beneficios de Rendimiento
La salida está optimizada para la ventana de contexto de Claude. Un artículo de noticias típico pasa de 4.820 tokens (HTML crudo) a 1.590 tokens en el formato LLM de WebClaw, una reducción del 67% manteniendo el mismo contenido.
WebClaw es gratuito y de código abierto bajo la licencia MIT, disponible en https://github.com/0xMassi/webclaw.
📖 Read the full source: r/ClaudeAI
👀 Ver también

La herramienta Snip permite la comunicación visual con agentes de IA de codificación.
Snip es una herramienta gratuita que permite a los desarrolladores capturar pantallas, anotar y dibujar para mostrar visualmente a los agentes de IA lo que quieren decir, mientras que los agentes pueden generar diagramas o cargar imágenes directamente mediante CLI o MCP. Actualmente funciona en Macs con Apple Silicon, con soporte para diagramas Mermaid y soporte HTML en desarrollo.

AIsbf 0.9.8 agrega almacenamiento en caché, mejoras en el enrutamiento y soporte ampliado para servicios de IA.
AIsbf 0.9.8 es un proxy/enrutador de API que expone una interfaz compatible con OpenAI a múltiples servicios de IA. Esta versión añade caché con Redis, SQLite, MySQL y basada en archivos, enrutamiento semántico mejorado y soporte completo de OAuth2 para suscriptores de Claude.ai, Amazon Kiro-cli, OpenAI Codex y Kilo.ai.

Agente Enjambre: Marco de Orquestación Multiagente para Asistentes de Codificación con IA
Agent Swarm es un framework de código abierto que permite a equipos de agentes de IA de codificación coordinarse de manera autónoma. Un agente principal recibe tareas desde Slack, GitHub o correo electrónico, las desglosa y las delega a agentes trabajadores aislados en Docker.

LumaBrowser: Navegador Electron Descarga el Análisis DOM a LLMs Locales para Agentes de IA
LumaBrowser es un navegador Electron que delega el análisis del DOM a modelos de lenguaje local mediante endpoints compatibles con OpenAI, ayudando a los agentes autónomos a evitar el procesamiento de HTML crudo. Utiliza modelos como las variantes de Qwen 2.5 para identificar elementos de la interfaz de usuario y devuelve selectores CSS.