에이전트크롤 업데이트, 중요한 크롤러 기능 및 개선 사항 추가

AgentCrawl의 최신 업데이트는 AI 에이전트를 사용하는 개발자를 위한 몇 가지 중요한 기능을 도입하여 TypeScript 스크레이퍼/크롤러로서의 기능을 강화합니다. 이번 릴리스는 크롤러 정확성과 예절, 캐싱 메커니즘, 재개 가능한 크롤링, 향상된 데이터 추출 기능을 통합하여 프로덕션 준비에 초점을 맞추고 있습니다.
주요 세부사항
- 툴 어댑터 제거: 이번 업데이트는 에이전트 SDK와 Vercel AI SDK용 툴 어댑터를 제거하여 사용자가 독립적으로 자신의 툴을 정의할 수 있도록 합니다.
- 라이브러리 업데이트: 패키지에는 이제 향상된 데이터 검증을 위한 최신 버전의 Zod가 포함됩니다.
- 크롤러 정확성: Robots.txt 준수는 이제 옵트인 방식이며 Disallow/Allow 및 Crawl-delay 지시어를 지원합니다.
/sitemap.xml에서 옵트인 사이트맵 시딩도 사용 가능합니다. - URL 정규화: 개선된 URL 정규화는 추적 매개변수를 포괄적으로 제거하고 표준 정규화를 처리할 수 있습니다.
- 스로틀링 옵션: 크롤러는 구성 가능한
perHostConcurrency및minDelayMs로 호스트별 스로틀링을 지원합니다. - 캐싱: 정적 페치를 위한 옵트인 디스크 HTTP 캐시는 ETag 및 Last-Modified 지원을 구현합니다. 시스템은
ScrapedPage의 클리닝 후 및 마크다운 변환을 캐시하며, 상태 304의 서버 응답을 캐시된 본문을 제공하여 처리할 수 있습니다. - 재개 가능한 크롤링: 새로운 옵트인 crawlState 지속성은 큐, 방문한 페이지, 대기 중인 항목, 오류 및 최대 깊이를 포함한 크롤의 프론티어를 저장하여 페이지를 다시 방문하지 않고도 크롤을 재개할 수 있도록 합니다.
- 데이터 추출 개선: 스크레이퍼는 이제 표준 URL, OpenGraph, Twitter 카드 및 JSON-LD를 포함한 구조화된 메타데이터 추출을 지원하며, 이는
metadata.structured에 보관됩니다. - 에이전트용 청킹: 옵트인 청킹 기능은 대략적인 토큰 크기, 제목 경로 및 인용 앵커가 포함된
page.chunks[]를 반환하며, 이는 RAG/툴 루프에 유용합니다.
👀 See Also

로컬 미팅 녹음을 위한 OpenClaw 스킬과 Whisper
ghostmeet이라는 새로운 OpenClaw 스킬이 Whisper를 사용하여 로컬 회의 녹취를 제공합니다. Chrome 확장 프로그램을 통해 브라우저 탭의 오디오를 캡처하며, Claude를 사용하여 요약을 생성할 수 있고, 모든 오디오와 녹취는 사용자의 기기에서 로컬로 처리됩니다.

넥서스: 발견, 신뢰, 결제 기능을 갖춘 오픈소스 AI 간 통신 프로토콜
넥서스는 AI 에이전트가 인간의 개입 없이 서로를 발견하고, 조건을 협상하며, 응답을 검증하고, 소액 결제를 처리할 수 있도록 하는 자체 호스팅 프로토콜입니다. 이는 발견, 신뢰, 프로토콜, 라우팅, 연합의 5개 계층으로 구성되어 있으며, 66개의 테스트와 MIT 라이선스를 포함합니다.

로컬 MCP 메모리 시스템과 AI 대화를 위한 통합 기능
한 개발자가 AI 클라이언트를 위한 지속적인 로컬 메모리를 제공하는 MCP 서버를 구축했습니다. 이 시스템은 6시간마다 Qwen 2.5-7B를 사용하여 대화를 구조화된 지식 문서로 통합하며, 시맨틱 중복 제거, 적응형 점수 부여, FAISS 벡터 검색 기능을 갖추고 하드웨어에서 완전히 로컬로 실행됩니다.

레이어킷: 클로드 코드로 제작된 편집 가능한 레이어를 갖춘 AI 이미지 편집기
한 개발자가 레이어킷(Layerkit)이라는 브라우저 기반 AI 이미지 편집기를 만들어, 지속적인 재프롬프팅 없이 편집 가능한 레이어로 장면을 생성하는 도구를 선보였습니다. 이 도구는 다단계 AI 파이프라인을 사용하며, 하나의 LLM이 구성을 계획하고, 이미지 모델이 장면을 생성한 후, 다른 LLM이 실제 생성된 이미지를 분석하여 가독성 있는 텍스트를 배치합니다.