WebClaw: Claude向けWeb抽出のためのオープンソースMCPサーバー

WebClawは、Rustで構築されたMCPサーバーで、Claude DesktopとClaude Codeにウェブ抽出機能を追加します。Claudeの組み込みweb_fetchがほとんどの実際のウェブサイトでブロックされ、403 Forbiddenエラー、Cloudflareのチャレンジ、または空のレスポンスが返される問題に対処します。
技術的解決策
このサーバーはHTTPレイヤーでTLSフィンガープリントを使用するため、ウェブサイトはボットではなく実際のChromeブラウザのフィンガープリントを認識します。10の主要サイトでのテストでは、Claudeの組み込みweb_fetchはすべて失敗しましたが、WebClawは10サイト中9サイトからコンテンツを正常に抽出しました。
機能
scrape: 任意のURLからクリーンなコンテンツを抽出crawl: 再帰的なサイトクローリングextract: JSONスキーマまたは自然言語プロンプトを使用した構造化データ抽出summarize: ページ要約brand: 任意のサイトから色、フォント、ロゴを抽出diff: コンテンツ変更の追跡map、batch、search、researchツール
Claude Codeでの開発
抽出パイプラインはClaude Codeで実装され、以下を含みます:
- テキスト密度、セマンティックタグ、リンク比率ペナルティに基づくスコアリングアルゴリズム
- Tailwindクラスでの誤検知なしにナビゲーション、広告、クッキーバナーを除去するノイズフィルター
- エッジケースのための複数回の改良
セットアップと使用方法
セットアップには1つのコマンドが必要です:
npx create-webclaw
このツールはClaude DesktopとClaude Codeを自動検出し、設定を書き込みます。10個のツールのうち8つにはAPIキーが不要で、すべてローカルで実行されます。
パフォーマンスの利点
出力はClaudeのコンテキストウィンドウに最適化されています。典型的なニュース記事は、4,820トークン(生のHTML)からWebClawのLLM形式では1,590トークンへと67%削減され、同じコンテンツを維持します。
WebClawはMITライセンスの下で無料かつオープンソースで、https://github.com/0xMassi/webclawで利用可能です。
📖 Read the full source: r/ClaudeAI
👀 See Also

44,212件のClaude Codeログにおける「プロンプト千件あたりのFワード数」メトリクスで開発者のフラストレーションを追跡
ある開発者が「fpk」(プロンプト千件あたりのfワード数)を5ヶ月間、44,212件のClaude Codeプロンプトにわたって追跡したところ、フラストレーションがClaude Opus 4-5から4-7で3.4倍減少し、ほとんどの悪態はモデルではなく環境ツールに向けられていたことがわかった。

AnthropicとOpenAIによる高速LLM推論の比較概要
AnthropicとOpenAIは、LLM推論を高速化するための異なる「高速モード」機能をリリースしました。OpenAIはCerebrasチップを活用してさらなる高速化を実現しています

NodeJSプロジェクト向けオープンソースAIメモリストレージ
Mind Palaceは、NodeJS向けのオープンソースのメモリ保存・検索システムで、LLMチャットセッション間で情報を永続化します。主要なLLMとベクトルストアをサポートし、インタラクションから要約された記憶を自動的に抽出・ベクトル化します。

効率的なトークン管理をオープンソースMCPサーバーで実現:Pare
Pare MCPサーバーは、AIコーディングエージェントが開発者ツールを使用する際のトークン浪費を削減し、効率を向上させるために構造化された出力を提供します。