WebClaw: Servidor MCP Open Source para Extração Web com Claude

WebClaw é um servidor MCP construído em Rust que adiciona capacidades de extração web ao Claude Desktop e Claude Code. Ele resolve o problema em que o web_fetch integrado do Claude é bloqueado na maioria dos sites reais, retornando erros 403 Forbidden, desafios do Cloudflare ou respostas vazias.

Solução Técnica

O servidor usa impressão digital TLS na camada HTTP para que os sites vejam uma impressão digital real do navegador Chrome em vez de um bot. Em testes com 10 sites populares, o web_fetch integrado do Claude falhou em todos os 10, enquanto o WebClaw extraiu conteúdo com sucesso de 9 dos 10 sites.

Recursos

scrape: Extrai conteúdo limpo de qualquer URL
crawl: Rastreamento recursivo de sites
extract: Extração de dados estruturados usando esquema JSON ou prompts em linguagem natural
summarize: Resumos de páginas
brand: Extrai cores, fontes, logotipos de qualquer site
diff: Acompanha alterações de conteúdo
Ferramentas map, batch, search, research

Desenvolvimento com Claude Code

O pipeline de extração foi implementado com Claude Code, incluindo:

Algoritmo de pontuação baseado em densidade de texto, tags semânticas e penalidades de proporção de links
Filtro de ruído que remove navegação, anúncios e banners de cookies sem falsos positivos em classes Tailwind
Múltiplas rodadas de refinamento para casos extremos

Configuração e Uso

A configuração requer apenas um comando:

npx create-webclaw

A ferramenta detecta automaticamente o Claude Desktop e Claude Code e escreve a configuração. Nenhuma chave de API é necessária para 8 das 10 ferramentas, e tudo é executado localmente.

Benefícios de Desempenho

A saída é otimizada para a janela de contexto do Claude. Um artigo de notícia típico vai de 4.820 tokens (HTML bruto) para 1.590 tokens no formato LLM do WebClaw - uma redução de 67% mantendo o mesmo conteúdo.

WebClaw é gratuito e de código aberto sob a licença MIT, disponível em https://github.com/0xMassi/webclaw.

📖 Read the full source: r/ClaudeAI