Lightfeed Extractor: Библиотека на TypeScript для надежного извлечения веб-данных с использованием LLM

Lightfeed Extractor — это библиотека на TypeScript, созданная для надёжного извлечения веб-данных с использованием LLM и автоматизации браузера Playwright. Она решает типичные проблемы в конвейерах веб-скрапинга, где традиционные CSS-селекторы ломаются при изменении макета сайтов, а подходы с использованием чистых LLM сталкиваются с шумом в HTML, некорректным выводом JSON и проблемами с URL.
Ключевые возможности
- Преобразование HTML в markdown, готовый для LLM: Извлекает основное содержимое, удаляя навигационные панели, заголовки, подвалы и мусор для отслеживания. Включает опциональное включение изображений и очистку URL.
- Извлечение с помощью LLM и схем Zod: Работает с любой LLM, совместимой с LangChain (OpenAI, Gemini, Claude, Ollama), и использует схемы Zod для типобезопасного извлечения с реальной валидацией.
- Восстановление JSON: Очищает и восстанавливает частичные данные из некорректного вывода LLM вместо полного сбоя. Если 19 из 20 продуктов обрабатываются правильно, вы получаете эти 19.
- Встроенная автоматизация браузера: Использует Playwright с поддержкой локальных, бессерверных или удалённых браузеров. Включает патчи против ботов для надёжного веб-скрапинга.
- Интеграция с AI-навигацией в браузере: Совмещается с @lightfeed/browser-agent для навигации по страницам на основе ИИ перед извлечением.
- Обработка URL: Управляет относительными URL, удаляет недействительные, исправляет экранированные ссылки в markdown и очищает параметры отслеживания.
Установка и использование
Установите через npm:
npm install @lightfeed/extractor
Затем установите предпочитаемого провайдера LLM:
# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (локальные модели)
npm install @langchain/ollama
Пример использования для извлечения товаров из электронной коммерции:
import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";
// Определите схему для извлечения каталога товаров
const productCatalogSchema = z.object({
products: z.array(
z.object({
name: z.string().describe("Название или заголовок товара"),
brand: z.string().optional().describe("Название бренда"),
price: z.number().describe("Текущая цена"),
originalPrice: z.number().optional().describe("Исходная цена, если действует скидка"),
rating: z.number().optional().describe("Рейтинг товара из 5"),
reviewCount: z.number().optional().describe("Количество отзывов"),
productUrl: z.string().url().describe("Ссылка на страницу с деталями товара"),
imageUrl: z.string().url().optional().describe("URL изображения товара")
})
).describe("Список товаров хлеба и выпечки")
});
// Создайте экземпляр браузера
const browser = new Browser({
type: "local", // также поддерживает бессерверный и удалённый браузер
headless: false
});
Библиотека лицензирована под Apache 2.0 и используется в продакшене в Lightfeed для конвейеров данных, которые скрапят веб-сайты и извлекают структурированные данные. Она предназначена для разработчиков, создающих рабочие процессы веб-скрапинга, которые хотят избежать написания повторяющегося шаблонного кода для очистки HTML, преобразования в markdown, вызовов LLM, парсинга JSON, восстановления ошибок и валидации схем.
📖 Read the full source: HN LLM Tools
👀 Смотрите также

Открытый исходный код the-vibe-stack: Правила Markdown для поддержания согласованности кода Claude
Разработчик открыл исходный код 'the-vibe-stack' — набора правил Markdown, предназначенных для удержания Claude Code в рамках во время длительных сессий путём применения жёсткой схемы. Этот подход направлен на уменьшение логического дрейфа и потерь токенов, обеспечивая предсказуемый результат.

SkyClaw: Автономная среда выполнения ИИ-агентов на Rust
SkyClaw — это автономная среда выполнения ИИ-агентов, созданная на Rust, с бинарным файлом размером 7,1 МБ, которая в режиме ожидания потребляет 14 МБ оперативной памяти и запускается менее чем за секунду. Она работает на основе пяти инженерных принципов, включая автономность, надежность и беспощадную эффективность.

ClawHost Open-Source OpenClaw с развертыванием в один клик набирает более 200 звёзд на GitHub
ClawHost, инструмент с открытым исходным кодом для установки OpenClaw в один клик с полным доступом к серверу и контролем, достиг отметки в 200+ звёзд на GitHub. Проект решает проблемы с нестабильными коммерческими обёртками, предоставляя бесплатное, самостоятельно размещаемое решение.

Conduid.com индексирует более 23 000 MCP-серверов в поисковый каталог.
Conduid.com агрегирует MCP-серверы из 11 источников, удаляет дубликаты и предоставляет поиск, категории и оценки доверия на основе активности на GitHub, качества документации и признаков поддержки.