라이트피드 익스트랙터: LLM을 활용한 강력한 웹 데이터 추출을 위한 타입스크립트 라이브러리

✍️ OpenClawRadar📅 게시일: March 26, 2026🔗 Source
라이트피드 익스트랙터: LLM을 활용한 강력한 웹 데이터 추출을 위한 타입스크립트 라이브러리
Ad

Lightfeed Extractor는 LLM과 Playwright 브라우저 자동화를 활용한 강력한 웹 데이터 추출을 위해 구축된 TypeScript 라이브러리입니다. 이 라이브러리는 사이트 레이아웃이 변경될 때 기존 CSS 선택기가 작동하지 않고, 원시 LLM 접근 방식이 HTML 노이즈, 잘못된 JSON 출력, URL 문제에 어려움을 겪는 웹 스크래핑 파이프라인의 일반적인 문제점을 해결합니다.

주요 기능

  • HTML을 LLM용 마크다운으로 변환: 네비게이션 바, 헤더, 푸터, 추적용 불필요 요소를 제거하면서 주요 콘텐츠를 추출합니다. 선택적 이미지 포함 및 URL 정리 기능을 포함합니다.
  • Zod 스키마를 활용한 LLM 추출: 모든 LangChain 호환 LLM(OpenAI, Gemini, Claude, Ollama)과 함께 작동하며, 실제 검증이 포함된 타입 안전 추출을 위해 Zod 스키마를 사용합니다.
  • JSON 복구: 잘못된 LLM 출력에서 부분 데이터를 정리하고 복구하여 완전히 실패하는 대신 부분적 성공을 보장합니다. 20개 제품 중 19개가 올바르게 파싱되면 그 19개를 얻을 수 있습니다.
  • 내장 브라우저 자동화: 로컬, 서버리스 또는 원격 브라우저를 지원하는 Playwright를 사용합니다. 안정적인 웹 스크래핑을 위한 봇 방지 패치를 포함합니다.
  • AI 브라우저 탐색 통합: 추출 전 AI 기반 페이지 탐색을 위해 @lightfeed/browser-agent와 함께 사용할 수 있습니다.
  • URL 처리: 상대 URL 관리, 유효하지 않은 URL 제거, 마크다운 이스케이프된 링크 복구, 추적 매개변수 정리를 처리합니다.
Ad

설치 및 사용법

npm을 통해 설치:

npm install @lightfeed/extractor

그런 다음 선호하는 LLM 제공자를 설치하세요:

# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (로컬 모델)
npm install @langchain/ollama

전자상거래 제품 추출 사용 예시:

import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";

// 제품 카탈로그 추출을 위한 스키마 정의 const productCatalogSchema = z.object({ products: z.array( z.object({ name: z.string().describe("제품명 또는 제목"), brand: z.string().optional().describe("브랜드명"), price: z.number().describe("현재 가격"), originalPrice: z.number().optional().describe("할인 중인 경우 원래 가격"), rating: z.number().optional().describe("5점 만점 제품 평점"), reviewCount: z.number().optional().describe("리뷰 수"), productUrl: z.string().url().describe("제품 상세 페이지 링크"), imageUrl: z.string().url().optional().describe("제품 이미지 URL") }) ).describe("빵 및 베이커리 제품 목록") });

// 브라우저 인스턴스 생성 const browser = new Browser({ type: "local", // 서버리스 및 원격 브라우저도 지원 headless: false });

이 라이브러리는 Apache 2.0 라이선스로 제공되며, Lightfeed에서 웹사이트를 스크래핑하고 구조화된 데이터를 추출하는 데이터 파이프라인에서 실제 운영 중에 사용됩니다. HTML 정리, 마크다운 변환, LLM 호출, JSON 파싱, 오류 복구, 스키마 검증을 위한 반복적인 보일러플레이트 코드 작성을 피하고 싶은 웹 스크래핑 워크플로우를 구축하는 개발자를 위해 설계되었습니다.

📖 전체 소스 읽기: HN LLM Tools

Ad

👀 See Also

OpenObscure: AI 에이전트를 위한 오픈소스 온디바이스 개인정보 보호 방화벽
Tools

OpenObscure: AI 에이전트를 위한 오픈소스 온디바이스 개인정보 보호 방화벽

OpenObscure는 오픈 소스, 온디바이스 개인정보 보호 방화벽으로, AI 에이전트와 LLM 제공자 사이에 위치하며, 요청이 사용자의 기기를 떠나기 전에 FF1 형식 보존 암호화를 사용하여 PII 값을 암호화합니다. 99.7%의 재현율을 가진 PII 탐지, 인지 방화벽 스캔 기능을 포함하며, macOS/Linux/Windows에서 실행되고 iOS/Android 바인딩을 지원합니다.

OpenClawRadar
AI 코딩 에이전트가 20턴 후에 엉터리 결과물을 내는 이유: 맥락 맹목성
Tools

AI 코딩 에이전트가 20턴 후에 엉터리 결과물을 내는 이유: 맥락 맹목성

API 로그 심층 분석 결과, Cursor와 Claude Code가 더 나빠진 것이 아니라 노이즈로 가득 찬 블로트된 컨텍스트 윈도우로 인해 질식하고 있으며, 이는 아키텍처 파괴로 이어집니다.

OpenClawRadar
아담: C 언어로 제작된 임베디드 크로스 플랫폼 AI 에이전트 라이브러리
Tools

아담: C 언어로 제작된 임베디드 크로스 플랫폼 AI 에이전트 라이브러리

Adam은 툴 호출, 메모리, 음성, 클라우드/로컬 LLM 지원 모두를 갖춘 완전한 에이전트 루프를 제공하는 C 라이브러리로, 모든 애플리케이션에 내장될 수 있도록 설계되었습니다.

OpenClawRadar
오픈소스 MCP 서버는 Claude Code와 IDE 도구를 연결합니다
Tools

오픈소스 MCP 서버는 Claude Code와 IDE 도구를 연결합니다

오픈소스 MCP 서버는 Claude Code가 LSP, 터미널, Git, GitHub, 디버깅, 진단 도구 등 124개 이상의 도구를 통해 IDE 기능에 지속적으로 접근할 수 있게 합니다. 이 서버를 설정한 기기가 있으면 모바일 기기에서도 코딩이 가능해집니다.

OpenClawRadar