WebClaw : Serveur MCP Open-Source pour l'Extraction Web avec Claude

WebClaw est un serveur MCP développé en Rust qui ajoute des capacités d'extraction web à Claude Desktop et Claude Code. Il résout le problème où le web_fetch intégré de Claude est bloqué sur la plupart des sites web réels, renvoyant des erreurs 403 Forbidden, des défis Cloudflare ou des réponses vides.
Solution technique
Le serveur utilise l'empreinte TLS au niveau de la couche HTTP pour que les sites web voient une empreinte de navigateur Chrome réelle plutôt qu'un bot. Lors des tests sur 10 sites populaires, le web_fetch intégré de Claude a échoué sur les 10, tandis que WebClaw a réussi à extraire le contenu de 9 sites sur 10.
Fonctionnalités
scrape: Extraire un contenu propre de n'importe quelle URLcrawl: Exploration récursive de sitesextract: Extraction de données structurées à l'aide de schémas JSON ou d'invites en langage naturelsummarize: Résumés de pagesbrand: Extraire les couleurs, polices et logos de n'importe quel sitediff: Suivre les modifications de contenu- Outils
map,batch,search,research
Développement avec Claude Code
Le pipeline d'extraction a été implémenté avec Claude Code, incluant :
- Un algorithme de scoring basé sur la densité de texte, les balises sémantiques et les pénalités de ratio de liens
- Un filtre de bruit qui supprime la navigation, les publicités et les bannières de cookies sans faux positifs sur les classes Tailwind
- Plusieurs tours de raffinement pour les cas limites
Installation et utilisation
L'installation nécessite une seule commande :
npx create-webclaw
L'outil détecte automatiquement Claude Desktop et Claude Code et écrit la configuration. Aucune clé API n'est nécessaire pour 8 des 10 outils, et tout s'exécute localement.
Avantages en performance
La sortie est optimisée pour la fenêtre de contexte de Claude. Un article de presse typique passe de 4 820 tokens (HTML brut) à 1 590 tokens dans le format LLM de WebClaw - une réduction de 67 % tout en conservant le même contenu.
WebClaw est gratuit et open source sous licence MIT, disponible sur https://github.com/0xMassi/webclaw.
📖 Read the full source: r/ClaudeAI
👀 See Also

FFF - Fast File Finder revendique un avantage de vitesse 100 fois supérieur à ripgrep.
FFF (Fast File Finder) est un outil de recherche de fichiers basé sur le web qui prétend être 100 fois plus rapide que ripgrep, se positionnant comme une alternative de nouvelle génération aux méthodes de recherche basées sur les expressions régulières. L'outil nécessite JavaScript pour fonctionner et a récemment été discuté sur Hacker News avec 36 points et 17 commentaires.

graphify-ts : Un serveur MCP local réduit les tokens de revue de PR de Claude Code de 63K à 8,7K
graphify-ts construit un graphe de connaissances local de votre codebase en utilisant l'AST de tree-sitter + les communautés Louvain + BM25 + un réordonnancement ONNX optionnel, et l'expose via MCP stdio. Dans les tests en production, il a réduit les tokens d'entrée de 2,6x et la latence de 2,8x pour les requêtes de code, et a réduit les prompts de revue de PR de 63K à 8,7K tokens.

Comment j'ai créé une compétence pour déployer des agents OpenClaw sur des applications web - Un regard dans les coulisses
Découvrez une nouvelle compétence innovante développée pour les agents OpenClaw qui facilite leur déploiement sur des applications web. Apprenez-en plus sur ses fonctionnalités, ses avantages et comment elle transforme les processus de production.

Bibliothèque open source de 59 compétences Claude couvrant l'ensemble du cycle de vie d'un site web
Un développeur a publié 59 compétences Claude réutilisables couvrant la découverte de marque, le design, le contenu, le SEO, le développement, les opérations et la croissance — indépendantes de la stack, avec une structure uniforme et une validation CI par lint.