WebClaw: Open-Source MCP-Server für Web-Extraktion mit Claude

WebClaw ist ein in Rust entwickelter MCP-Server, der Claude Desktop und Claude Code Web-Extraktionsfähigkeiten hinzufügt. Er löst das Problem, bei dem Claudes integrierter web_fetch auf den meisten echten Websites blockiert wird und 403 Forbidden-Fehler, Cloudflare-Herausforderungen oder leere Antworten zurückgibt.

Technische Lösung

Der Server verwendet TLS-Fingerprinting auf der HTTP-Ebene, sodass Websites einen echten Chrome-Browser-Fingerabdruck anstelle eines Bots erkennen. In Tests mit 10 beliebten Websites scheiterte Claudes integrierter web_fetch bei allen 10, während WebClaw erfolgreich Inhalte von 9 der 10 Websites extrahieren konnte.

Funktionen

scrape: Saubere Inhalte von jeder URL extrahieren
crawl: Rekursives Crawlen von Websites
extract: Strukturierte Datenextraktion mit JSON-Schema oder natürlichen Sprachaufforderungen
summarize: Seitenzusammenfassungen
brand: Farben, Schriftarten, Logos von jeder Website extrahieren
diff: Inhaltsänderungen verfolgen
map, batch, search, research Tools

Claude Code Entwicklung

Die Extraktionspipeline wurde mit Claude Code implementiert, einschließlich:

Bewertungsalgorithmus basierend auf Textdichte, semantischen Tags und Linkverhältnis-Strafen
Rauschfilter, der Navigation, Werbung und Cookie-Banner ohne falsch-positive Ergebnisse bei Tailwind-Klassen entfernt
Mehrere Optimierungsrunden für Sonderfälle

Einrichtung und Verwendung

Die Einrichtung erfordert nur einen Befehl:

npx create-webclaw

Das Tool erkennt Claude Desktop und Claude Code automatisch und schreibt die Konfiguration. Für 8 der 10 Tools wird kein API-Schlüssel benötigt, und alles läuft lokal.

Leistungsvorteile

Die Ausgabe ist für Claudes Kontextfenster optimiert. Ein typischer Nachrichtenartikel reduziert sich von 4.820 Tokens (rohes HTML) auf 1.590 Tokens in WebClaws LLM-Format – eine Reduktion um 67 % bei gleichem Inhalt.

WebClaw ist kostenlos und quelloffen unter der MIT-Lizenz verfügbar unter https://github.com/0xMassi/webclaw.

📖 Read the full source: r/ClaudeAI