WebClaw: Open-Source MCP-Server für Web-Extraktion mit Claude

WebClaw ist ein in Rust entwickelter MCP-Server, der Claude Desktop und Claude Code Web-Extraktionsfähigkeiten hinzufügt. Er löst das Problem, bei dem Claudes integrierter web_fetch auf den meisten echten Websites blockiert wird und 403 Forbidden-Fehler, Cloudflare-Herausforderungen oder leere Antworten zurückgibt.
Technische Lösung
Der Server verwendet TLS-Fingerprinting auf der HTTP-Ebene, sodass Websites einen echten Chrome-Browser-Fingerabdruck anstelle eines Bots erkennen. In Tests mit 10 beliebten Websites scheiterte Claudes integrierter web_fetch bei allen 10, während WebClaw erfolgreich Inhalte von 9 der 10 Websites extrahieren konnte.
Funktionen
scrape: Saubere Inhalte von jeder URL extrahierencrawl: Rekursives Crawlen von Websitesextract: Strukturierte Datenextraktion mit JSON-Schema oder natürlichen Sprachaufforderungensummarize: Seitenzusammenfassungenbrand: Farben, Schriftarten, Logos von jeder Website extrahierendiff: Inhaltsänderungen verfolgenmap,batch,search,researchTools
Claude Code Entwicklung
Die Extraktionspipeline wurde mit Claude Code implementiert, einschließlich:
- Bewertungsalgorithmus basierend auf Textdichte, semantischen Tags und Linkverhältnis-Strafen
- Rauschfilter, der Navigation, Werbung und Cookie-Banner ohne falsch-positive Ergebnisse bei Tailwind-Klassen entfernt
- Mehrere Optimierungsrunden für Sonderfälle
Einrichtung und Verwendung
Die Einrichtung erfordert nur einen Befehl:
npx create-webclaw
Das Tool erkennt Claude Desktop und Claude Code automatisch und schreibt die Konfiguration. Für 8 der 10 Tools wird kein API-Schlüssel benötigt, und alles läuft lokal.
Leistungsvorteile
Die Ausgabe ist für Claudes Kontextfenster optimiert. Ein typischer Nachrichtenartikel reduziert sich von 4.820 Tokens (rohes HTML) auf 1.590 Tokens in WebClaws LLM-Format – eine Reduktion um 67 % bei gleichem Inhalt.
WebClaw ist kostenlos und quelloffen unter der MIT-Lizenz verfügbar unter https://github.com/0xMassi/webclaw.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch
UI und Server für Anthropics Natural Language Autoencoder auf llama.cpp
Ein benutzerdefinierter llama.cpp-Server und eine Mikupad-Benutzeroberfläche für Anthropics Open-Weight Natural Language Autoencoder, die Aktivierungsextraktion, Erklärung, Rekonstruktion und Steuerung durch Bearbeitung von Erklärungen unterstützen.

OnPrem.LLM AgentExecutor: Starten Sie abgesicherte KI-Agenten mit integrierten Tools
Der AgentExecutor von OnPrem.LLM ermöglicht es Ihnen, autonome KI-Agenten zu erstellen, die komplexe Aufgaben mithilfe von Cloud- oder lokalen Modellen ausführen, mit neun integrierten Tools einschließlich Dateioperationen, Shell-Befehlen und Websuche. Sie können Agenten in abgesicherten Containern für mehr Sicherheit ausführen.

KI-Codeabruf: Warum Vektor-Embeddings scheitern und dateiweise LLM-Graphen gewinnen
Nach einem Jahr Aufbau eines Code-Indexierungssystems stellte das Team hinter Bytebell fest, dass Vektor-Embeddings auf Code-Chunks und Tree-Sitter-ASTs beide unzureichend waren, während pro-Datei-LLM-Zusammenfassungen, die in einem Neo4j-Graphen mit semantischer Volltextsuche gespeichert sind, die Retrieval-Präzision deutlich verbesserten.
Nadel: Ein 26M-Parameter-Funktionsaufrufmodell mit 6000 Tok/s auf Mobilgeräten
Cactus veröffentlicht Needle als Open Source, ein 26M-Parameter-Modell für einmaligen Funktionsaufruf, das 6000 tok/s Prefill und 1200 tok/s Decoding auf Verbrauchergeräten erreicht. Es basiert auf Simple Attention Networks (ohne FFNs) und übertrifft mehrere größere Modelle in Tool-Use-Benchmarks.