WebClaw: Claude와 함께하는 웹 추출용 오픈소스 MCP 서버

WebClaw는 Rust로 구축된 MCP 서버로, Claude Desktop과 Claude Code에 웹 추출 기능을 추가합니다. 대부분의 실제 웹사이트에서 Claude의 내장 web_fetch가 차단되어 403 Forbidden 오류, Cloudflare 챌린지 또는 빈 응답을 반환하는 문제를 해결합니다.
기술적 해결책
이 서버는 HTTP 계층에서 TLS 핑거프린팅을 사용하여 웹사이트가 봇 대신 실제 Chrome 브라우저 핑거프린트를 인식하도록 합니다. 10개 인기 사이트 테스트에서 Claude의 내장 web_fetch는 모두 실패했지만, WebClaw는 10개 중 9개 사이트에서 콘텐츠를 성공적으로 추출했습니다.
기능
scrape: 모든 URL에서 깔끔한 콘텐츠 추출crawl: 재귀적 사이트 크롤링extract: JSON 스키마 또는 자연어 프롬프트를 사용한 구조화된 데이터 추출summarize: 페이지 요약brand: 모든 사이트에서 색상, 폰트, 로고 추출diff: 콘텐츠 변경 추적map,batch,search,research도구
Claude Code 개발
추출 파이프라인은 Claude Code로 구현되었으며, 다음을 포함합니다:
- 텍스트 밀도, 의미론적 태그 및 링크 비율 패널티를 기반으로 한 점수 알고리즘
- Tailwind 클래스에서 오탐 없이 네비게이션, 광고, 쿠키 배너를 제거하는 노이즈 필터
- 예외 상황을 위한 다중 라운드 정제
설정 및 사용법
설정에는 한 가지 명령어만 필요합니다:
npx create-webclaw
이 도구는 Claude Desktop과 Claude Code를 자동으로 감지하고 구성을 작성합니다. 10개 도구 중 8개에는 API 키가 필요하지 않으며, 모든 것이 로컬에서 실행됩니다.
성능 이점
출력은 Claude의 컨텍스트 창에 최적화되어 있습니다. 일반적인 뉴스 기사는 4,820 토큰(원시 HTML)에서 WebClaw의 LLM 형식으로 1,590 토큰으로 줄어들어 동일한 콘텐츠를 유지하면서 67% 감소합니다.
WebClaw는 MIT 라이선스 하에 무료 오픈소스이며, https://github.com/0xMassi/webclaw에서 이용 가능합니다.
📖 Read the full source: r/ClaudeAI
👀 See Also

구피LM: 교육 목적으로 처음부터 구축된 9백만 파라미터 규모의 대규모 언어 모델
GuppyLM은 6개의 레이어, 384개의 은닉 차원, 6개의 어텐션 헤드를 가진 기본 트랜스포머 아키텍처를 사용하여 60K개의 합성 대화로 처음부터 학습된 약 9백만 파라미터 언어 모델입니다. 무료 Colab T4 GPU에서 약 5분 동안 학습하며, 물, 음식, 수조 생활에 초점을 맞춘 물고기 성격으로 말합니다.

Claude Code 공식 텔레그램 플러그인: 설정 노트 및 OpenClaw에서의 마이그레이션
한 개발자가 OpenClaw에서 Claude Code의 공식 Telegram 통합으로 이전하면서 설정 과정을 문서화하고 오픈소스 마이그레이션 스킬을 만들었습니다. 이 통합은 BotFather 토큰을 통해 연결되며 더 나은 토큰 효율성과 깔끔한 커뮤니케이션을 제공합니다.

AI 에이전트를 활용한 Lisp 개발: 높은 비용과 기술적 과제
한 DevOps 엔지니어가 AI 에이전트가 Lisp 개발에 어려움을 겪으며, 부적절한 코드를 위해 몇 분 만에 10~20달러를 소비하는 반면, Python과 Go는 효율적으로 작동한다는 사실을 발견했습니다. 그는 REPL 상호작용을 개선하기 위해 tmux-repl-mcp를 만들었지만, 여전히 높은 토큰 비용과 도구 문제에 직면했습니다.

브룬펠드 에이전트 세계: 행동 프롬프트 없이 구현된 다중 에이전트 중세 경제 시뮬레이션
행동 지침, 목표, 거래 전략 없이 중세 마을 경제에서 20개의 LLM 에이전트가 자율적으로 거래하는 TypeScript 시뮬레이션입니다. 각 틱마다 에이전트는 약 200개의 토큰 인식을 받으며 물리학, 레시피, 시장 메커니즘을 처리하는 결정론적 엔진을 통해 상호작용합니다.