Lightfeed Extractor: Библиотека на TypeScript для надежного извлечения веб-данных с использованием LLM

✍️ OpenClawRadar📅 Опубликовано: 26 марта 2026 г.🔗 Source
Lightfeed Extractor: Библиотека на TypeScript для надежного извлечения веб-данных с использованием LLM
Ad

Lightfeed Extractor — это библиотека на TypeScript, созданная для надёжного извлечения веб-данных с использованием LLM и автоматизации браузера Playwright. Она решает типичные проблемы в конвейерах веб-скрапинга, где традиционные CSS-селекторы ломаются при изменении макета сайтов, а подходы с использованием чистых LLM сталкиваются с шумом в HTML, некорректным выводом JSON и проблемами с URL.

Ключевые возможности

  • Преобразование HTML в markdown, готовый для LLM: Извлекает основное содержимое, удаляя навигационные панели, заголовки, подвалы и мусор для отслеживания. Включает опциональное включение изображений и очистку URL.
  • Извлечение с помощью LLM и схем Zod: Работает с любой LLM, совместимой с LangChain (OpenAI, Gemini, Claude, Ollama), и использует схемы Zod для типобезопасного извлечения с реальной валидацией.
  • Восстановление JSON: Очищает и восстанавливает частичные данные из некорректного вывода LLM вместо полного сбоя. Если 19 из 20 продуктов обрабатываются правильно, вы получаете эти 19.
  • Встроенная автоматизация браузера: Использует Playwright с поддержкой локальных, бессерверных или удалённых браузеров. Включает патчи против ботов для надёжного веб-скрапинга.
  • Интеграция с AI-навигацией в браузере: Совмещается с @lightfeed/browser-agent для навигации по страницам на основе ИИ перед извлечением.
  • Обработка URL: Управляет относительными URL, удаляет недействительные, исправляет экранированные ссылки в markdown и очищает параметры отслеживания.
Ad

Установка и использование

Установите через npm:

npm install @lightfeed/extractor

Затем установите предпочитаемого провайдера LLM:

# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (локальные модели)
npm install @langchain/ollama

Пример использования для извлечения товаров из электронной коммерции:

import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";

// Определите схему для извлечения каталога товаров const productCatalogSchema = z.object({ products: z.array( z.object({ name: z.string().describe("Название или заголовок товара"), brand: z.string().optional().describe("Название бренда"), price: z.number().describe("Текущая цена"), originalPrice: z.number().optional().describe("Исходная цена, если действует скидка"), rating: z.number().optional().describe("Рейтинг товара из 5"), reviewCount: z.number().optional().describe("Количество отзывов"), productUrl: z.string().url().describe("Ссылка на страницу с деталями товара"), imageUrl: z.string().url().optional().describe("URL изображения товара") }) ).describe("Список товаров хлеба и выпечки") });

// Создайте экземпляр браузера const browser = new Browser({ type: "local", // также поддерживает бессерверный и удалённый браузер headless: false });

Библиотека лицензирована под Apache 2.0 и используется в продакшене в Lightfeed для конвейеров данных, которые скрапят веб-сайты и извлекают структурированные данные. Она предназначена для разработчиков, создающих рабочие процессы веб-скрапинга, которые хотят избежать написания повторяющегося шаблонного кода для очистки HTML, преобразования в markdown, вызовов LLM, парсинга JSON, восстановления ошибок и валидации схем.

📖 Read the full source: HN LLM Tools

Ad

👀 Смотрите также

Открытый исходный код the-vibe-stack: Правила Markdown для поддержания согласованности кода Claude
Инструменты

Открытый исходный код the-vibe-stack: Правила Markdown для поддержания согласованности кода Claude

Разработчик открыл исходный код 'the-vibe-stack' — набора правил Markdown, предназначенных для удержания Claude Code в рамках во время длительных сессий путём применения жёсткой схемы. Этот подход направлен на уменьшение логического дрейфа и потерь токенов, обеспечивая предсказуемый результат.

OpenClawRadar
SkyClaw: Автономная среда выполнения ИИ-агентов на Rust
Инструменты

SkyClaw: Автономная среда выполнения ИИ-агентов на Rust

SkyClaw — это автономная среда выполнения ИИ-агентов, созданная на Rust, с бинарным файлом размером 7,1 МБ, которая в режиме ожидания потребляет 14 МБ оперативной памяти и запускается менее чем за секунду. Она работает на основе пяти инженерных принципов, включая автономность, надежность и беспощадную эффективность.

OpenClawRadar
ClawHost Open-Source OpenClaw с развертыванием в один клик набирает более 200 звёзд на GitHub
Инструменты

ClawHost Open-Source OpenClaw с развертыванием в один клик набирает более 200 звёзд на GitHub

ClawHost, инструмент с открытым исходным кодом для установки OpenClaw в один клик с полным доступом к серверу и контролем, достиг отметки в 200+ звёзд на GitHub. Проект решает проблемы с нестабильными коммерческими обёртками, предоставляя бесплатное, самостоятельно размещаемое решение.

OpenClawRadar
Conduid.com индексирует более 23 000 MCP-серверов в поисковый каталог.
Инструменты

Conduid.com индексирует более 23 000 MCP-серверов в поисковый каталог.

Conduid.com агрегирует MCP-серверы из 11 источников, удаляет дубликаты и предоставляет поиск, категории и оценки доверия на основе активности на GitHub, качества документации и признаков поддержки.

OpenClawRadar