WebClaw : Serveur MCP Open-Source pour l'Extraction Web avec Claude

✍️ OpenClawRadar📅 Publié: March 23, 2026🔗 Source
WebClaw : Serveur MCP Open-Source pour l'Extraction Web avec Claude
Ad

WebClaw est un serveur MCP développé en Rust qui ajoute des capacités d'extraction web à Claude Desktop et Claude Code. Il résout le problème où le web_fetch intégré de Claude est bloqué sur la plupart des sites web réels, renvoyant des erreurs 403 Forbidden, des défis Cloudflare ou des réponses vides.

Solution technique

Le serveur utilise l'empreinte TLS au niveau de la couche HTTP pour que les sites web voient une empreinte de navigateur Chrome réelle plutôt qu'un bot. Lors des tests sur 10 sites populaires, le web_fetch intégré de Claude a échoué sur les 10, tandis que WebClaw a réussi à extraire le contenu de 9 sites sur 10.

Fonctionnalités

  • scrape : Extraire un contenu propre de n'importe quelle URL
  • crawl : Exploration récursive de sites
  • extract : Extraction de données structurées à l'aide de schémas JSON ou d'invites en langage naturel
  • summarize : Résumés de pages
  • brand : Extraire les couleurs, polices et logos de n'importe quel site
  • diff : Suivre les modifications de contenu
  • Outils map, batch, search, research
Ad

Développement avec Claude Code

Le pipeline d'extraction a été implémenté avec Claude Code, incluant :

  • Un algorithme de scoring basé sur la densité de texte, les balises sémantiques et les pénalités de ratio de liens
  • Un filtre de bruit qui supprime la navigation, les publicités et les bannières de cookies sans faux positifs sur les classes Tailwind
  • Plusieurs tours de raffinement pour les cas limites

Installation et utilisation

L'installation nécessite une seule commande :

npx create-webclaw

L'outil détecte automatiquement Claude Desktop et Claude Code et écrit la configuration. Aucune clé API n'est nécessaire pour 8 des 10 outils, et tout s'exécute localement.

Avantages en performance

La sortie est optimisée pour la fenêtre de contexte de Claude. Un article de presse typique passe de 4 820 tokens (HTML brut) à 1 590 tokens dans le format LLM de WebClaw - une réduction de 67 % tout en conservant le même contenu.

WebClaw est gratuit et open source sous licence MIT, disponible sur https://github.com/0xMassi/webclaw.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

FFF - Fast File Finder revendique un avantage de vitesse 100 fois supérieur à ripgrep.
Tools

FFF - Fast File Finder revendique un avantage de vitesse 100 fois supérieur à ripgrep.

FFF (Fast File Finder) est un outil de recherche de fichiers basé sur le web qui prétend être 100 fois plus rapide que ripgrep, se positionnant comme une alternative de nouvelle génération aux méthodes de recherche basées sur les expressions régulières. L'outil nécessite JavaScript pour fonctionner et a récemment été discuté sur Hacker News avec 36 points et 17 commentaires.

OpenClawRadar
graphify-ts : Un serveur MCP local réduit les tokens de revue de PR de Claude Code de 63K à 8,7K
Tools

graphify-ts : Un serveur MCP local réduit les tokens de revue de PR de Claude Code de 63K à 8,7K

graphify-ts construit un graphe de connaissances local de votre codebase en utilisant l'AST de tree-sitter + les communautés Louvain + BM25 + un réordonnancement ONNX optionnel, et l'expose via MCP stdio. Dans les tests en production, il a réduit les tokens d'entrée de 2,6x et la latence de 2,8x pour les requêtes de code, et a réduit les prompts de revue de PR de 63K à 8,7K tokens.

OpenClawRadar
Comment j'ai créé une compétence pour déployer des agents OpenClaw sur des applications web - Un regard dans les coulisses
Tools

Comment j'ai créé une compétence pour déployer des agents OpenClaw sur des applications web - Un regard dans les coulisses

Découvrez une nouvelle compétence innovante développée pour les agents OpenClaw qui facilite leur déploiement sur des applications web. Apprenez-en plus sur ses fonctionnalités, ses avantages et comment elle transforme les processus de production.

OpenClawRadar
Bibliothèque open source de 59 compétences Claude couvrant l'ensemble du cycle de vie d'un site web
Tools

Bibliothèque open source de 59 compétences Claude couvrant l'ensemble du cycle de vie d'un site web

Un développeur a publié 59 compétences Claude réutilisables couvrant la découverte de marque, le design, le contenu, le SEO, le développement, les opérations et la croissance — indépendantes de la stack, avec une structure uniforme et une validation CI par lint.

OpenClawRadar