WebClaw: オープンソースMCPサーバーでClaudeのWeb抽出制限を解決

WebClawは、Rustで構築されたMCPサーバーで、Claude DesktopとClaude Codeにウェブ抽出機能を追加します。Claudeの組み込みweb_fetchがほとんどの実際のウェブサイトでブロックされ、403 Forbiddenエラー、Cloudflareのチャレンジ、または空のレスポンスが返される問題に対処します。

技術的解決策

このサーバーはHTTPレイヤーでTLSフィンガープリントを使用するため、ウェブサイトはボットではなく実際のChromeブラウザのフィンガープリントを認識します。10の主要サイトでのテストでは、Claudeの組み込みweb_fetchはすべて失敗しましたが、WebClawは10サイト中9サイトからコンテンツを正常に抽出しました。

機能

scrape: 任意のURLからクリーンなコンテンツを抽出
crawl: 再帰的なサイトクローリング
extract: JSONスキーマまたは自然言語プロンプトを使用した構造化データ抽出
summarize: ページ要約
brand: 任意のサイトから色、フォント、ロゴを抽出
diff: コンテンツ変更の追跡
map、batch、search、researchツール

Claude Codeでの開発

抽出パイプラインはClaude Codeで実装され、以下を含みます：

テキスト密度、セマンティックタグ、リンク比率ペナルティに基づくスコアリングアルゴリズム
Tailwindクラスでの誤検知なしにナビゲーション、広告、クッキーバナーを除去するノイズフィルター
エッジケースのための複数回の改良

セットアップと使用方法

セットアップには1つのコマンドが必要です：

npx create-webclaw

このツールはClaude DesktopとClaude Codeを自動検出し、設定を書き込みます。10個のツールのうち8つにはAPIキーが不要で、すべてローカルで実行されます。

パフォーマンスの利点

出力はClaudeのコンテキストウィンドウに最適化されています。典型的なニュース記事は、4,820トークン（生のHTML）からWebClawのLLM形式では1,590トークンへと67％削減され、同じコンテンツを維持します。

WebClawはMITライセンスの下で無料かつオープンソースで、https://github.com/0xMassi/webclawで利用可能です。

📖 Read the full source: r/ClaudeAI

WebClaw: Claude向けWeb抽出のためのオープンソースMCPサーバー

技術的解決策

機能

Claude Codeでの開発

セットアップと使用方法

パフォーマンスの利点

👀 See Also

バトン：複数のAIコーディングエージェントを管理するデスクトップアプリ

ベクトルのメモリアーキテクチャ：クロードの流出システムからの原則

BigNumberTheory：Claudeコードエージェントのための経験共有ネットワーク

NaNMesh MCPは、Claudeがライブラリを推奨する前にGitHubの課題を確認します