WebClaw: Open-Source MCP-Server für Web-Extraktion mit Claude

✍️ OpenClawRadar📅 Veröffentlicht: 23. März 2026🔗 Source
WebClaw: Open-Source MCP-Server für Web-Extraktion mit Claude
Ad

WebClaw ist ein in Rust entwickelter MCP-Server, der Claude Desktop und Claude Code Web-Extraktionsfähigkeiten hinzufügt. Er löst das Problem, bei dem Claudes integrierter web_fetch auf den meisten echten Websites blockiert wird und 403 Forbidden-Fehler, Cloudflare-Herausforderungen oder leere Antworten zurückgibt.

Technische Lösung

Der Server verwendet TLS-Fingerprinting auf der HTTP-Ebene, sodass Websites einen echten Chrome-Browser-Fingerabdruck anstelle eines Bots erkennen. In Tests mit 10 beliebten Websites scheiterte Claudes integrierter web_fetch bei allen 10, während WebClaw erfolgreich Inhalte von 9 der 10 Websites extrahieren konnte.

Funktionen

  • scrape: Saubere Inhalte von jeder URL extrahieren
  • crawl: Rekursives Crawlen von Websites
  • extract: Strukturierte Datenextraktion mit JSON-Schema oder natürlichen Sprachaufforderungen
  • summarize: Seitenzusammenfassungen
  • brand: Farben, Schriftarten, Logos von jeder Website extrahieren
  • diff: Inhaltsänderungen verfolgen
  • map, batch, search, research Tools
Ad

Claude Code Entwicklung

Die Extraktionspipeline wurde mit Claude Code implementiert, einschließlich:

  • Bewertungsalgorithmus basierend auf Textdichte, semantischen Tags und Linkverhältnis-Strafen
  • Rauschfilter, der Navigation, Werbung und Cookie-Banner ohne falsch-positive Ergebnisse bei Tailwind-Klassen entfernt
  • Mehrere Optimierungsrunden für Sonderfälle

Einrichtung und Verwendung

Die Einrichtung erfordert nur einen Befehl:

npx create-webclaw

Das Tool erkennt Claude Desktop und Claude Code automatisch und schreibt die Konfiguration. Für 8 der 10 Tools wird kein API-Schlüssel benötigt, und alles läuft lokal.

Leistungsvorteile

Die Ausgabe ist für Claudes Kontextfenster optimiert. Ein typischer Nachrichtenartikel reduziert sich von 4.820 Tokens (rohes HTML) auf 1.590 Tokens in WebClaws LLM-Format – eine Reduktion um 67 % bei gleichem Inhalt.

WebClaw ist kostenlos und quelloffen unter der MIT-Lizenz verfügbar unter https://github.com/0xMassi/webclaw.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

🦀
Werkzeuge

UI und Server für Anthropics Natural Language Autoencoder auf llama.cpp

Ein benutzerdefinierter llama.cpp-Server und eine Mikupad-Benutzeroberfläche für Anthropics Open-Weight Natural Language Autoencoder, die Aktivierungsextraktion, Erklärung, Rekonstruktion und Steuerung durch Bearbeitung von Erklärungen unterstützen.

OpenClawRadar
OnPrem.LLM AgentExecutor: Starten Sie abgesicherte KI-Agenten mit integrierten Tools
Werkzeuge

OnPrem.LLM AgentExecutor: Starten Sie abgesicherte KI-Agenten mit integrierten Tools

Der AgentExecutor von OnPrem.LLM ermöglicht es Ihnen, autonome KI-Agenten zu erstellen, die komplexe Aufgaben mithilfe von Cloud- oder lokalen Modellen ausführen, mit neun integrierten Tools einschließlich Dateioperationen, Shell-Befehlen und Websuche. Sie können Agenten in abgesicherten Containern für mehr Sicherheit ausführen.

OpenClawRadar
KI-Codeabruf: Warum Vektor-Embeddings scheitern und dateiweise LLM-Graphen gewinnen
Werkzeuge

KI-Codeabruf: Warum Vektor-Embeddings scheitern und dateiweise LLM-Graphen gewinnen

Nach einem Jahr Aufbau eines Code-Indexierungssystems stellte das Team hinter Bytebell fest, dass Vektor-Embeddings auf Code-Chunks und Tree-Sitter-ASTs beide unzureichend waren, während pro-Datei-LLM-Zusammenfassungen, die in einem Neo4j-Graphen mit semantischer Volltextsuche gespeichert sind, die Retrieval-Präzision deutlich verbesserten.

OpenClawRadar
🦀
Werkzeuge

Nadel: Ein 26M-Parameter-Funktionsaufrufmodell mit 6000 Tok/s auf Mobilgeräten

Cactus veröffentlicht Needle als Open Source, ein 26M-Parameter-Modell für einmaligen Funktionsaufruf, das 6000 tok/s Prefill und 1200 tok/s Decoding auf Verbrauchergeräten erreicht. Es basiert auf Simple Attention Networks (ohne FFNs) und übertrifft mehrere größere Modelle in Tool-Use-Benchmarks.

OpenClawRadar