WebClaw: Открытый MCP-сервер для извлечения веб-данных с Claude

WebClaw — это сервер MCP, созданный на Rust, который добавляет возможности извлечения веб-данных в Claude Desktop и Claude Code. Он решает проблему, когда встроенная функция web_fetch в Claude блокируется на большинстве реальных веб-сайтов, возвращая ошибки 403 Forbidden, вызовы Cloudflare или пустые ответы.
Техническое решение
Сервер использует TLS-фингерпринтинг на уровне HTTP, поэтому сайты видят отпечаток реального браузера Chrome, а не бота. В тестировании на 10 популярных сайтах встроенная функция web_fetch в Claude не сработала ни на одном, в то время как WebClaw успешно извлёк контент с 9 из 10 сайтов.
Возможности
scrape: Извлечение чистого контента с любого URLcrawl: Рекурсивный обход сайтовextract: Структурированное извлечение данных с использованием JSON-схемы или естественно-языковых запросовsummarize: Сводки страницbrand: Извлечение цветов, шрифтов, логотипов с любого сайтаdiff: Отслеживание изменений контента- Инструменты
map,batch,search,research
Разработка с Claude Code
Конвейер извлечения был реализован с помощью Claude Code, включая:
- Алгоритм оценки на основе плотности текста, семантических тегов и штрафов за соотношение ссылок
- Фильтр шума, который удаляет навигацию, рекламу и баннеры cookie без ложных срабатываний на классах Tailwind
- Несколько этапов доработки для сложных случаев
Установка и использование
Для установки требуется одна команда:
npx create-webclaw
Инструмент автоматически определяет Claude Desktop и Claude Code и записывает конфигурацию. API-ключ не требуется для 8 из 10 инструментов, и всё работает локально.
Преимущества производительности
Вывод оптимизирован под контекстное окно Claude. Типичная новостная статья сокращается с 4820 токенов (исходный HTML) до 1590 токенов в формате LLM WebClaw — это сокращение на 67% при сохранении того же контента.
WebClaw бесплатен и имеет открытый исходный код по лицензии MIT, доступен по адресу https://github.com/0xMassi/webclaw.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

КОЛЛЕКЦИЯ АГЕНТОВ: 129 Клод-код-агентов собраны в одном репозитории
Разработчик собрал 129 агентов Claude Code в единый репозиторий в формате ~/.claude/agents/, готовый к установке простой командой копирования. Коллекция включает полную систему agency-agents с 68 личностно-ориентированными агентами из различных областей, а также дополнительные агенты для многозадачных рабочих процессов.

md-redline: графический инструмент для проверки и передачи документов в формате Markdown в Claude
md-redline — это инструмент с открытым исходным кодом, который позволяет открывать файлы Markdown в графическом интерфейсе, оставлять встроенные комментарии, сохраняемые как HTML-маркеры в .md-файле, и передавать документ обратно в Claude для обновлений. Он работает локально, не требуя аккаунта, облачных сервисов или базы данных.

Best-Backup: Бесплатный инструмент для резервного копирования сервера OpenClaw и контейнеров Docker
Бесплатный инструмент best-backup предоставляет надёжные возможности резервного копирования для серверов OpenClaw, включая полное резервное копирование серверов, копирование определённых папок и резервное копирование контейнеров Docker, с такими функциями, как сжатие, шифрование с использованием существующих SSH-ключей и интеграция с Google Drive.

Клод Банан: Плагин Claude Code для генерации изображений с учетом дизайн-системы
Claude Banana — это плагин Claude Code для генерации изображений с использованием API Google Gemini. Он создаёт контекстно-зависимые промпты, анализируя конфигурации Tailwind, CSS-переменные, дизайн-токены и существующие ресурсы, чтобы понять визуальный стиль проекта.