Extractor Lightfeed: Biblioteca TypeScript para Extracción Robusta de Datos Web con LLMs

Lightfeed Extractor es una biblioteca TypeScript diseñada para una extracción robusta de datos web utilizando LLMs y automatización de navegador Playwright. Aborda problemas comunes en los flujos de trabajo de web scraping donde los selectores CSS tradicionales fallan cuando los sitios cambian su diseño, y los enfoques de LLM crudos tienen dificultades con el ruido HTML, la salida JSON malformada y problemas con las URL.
Características Principales
- Conversión de HTML a markdown listo para LLM: Extrae el contenido principal eliminando barras de navegación, encabezados, pies de página y basura de seguimiento. Incluye inclusión opcional de imágenes y limpieza de URL.
- Extracción con LLM y esquemas Zod: Funciona con cualquier LLM compatible con LangChain (OpenAI, Gemini, Claude, Ollama) y utiliza esquemas Zod para extracción con tipos seguros y validación real.
- Recuperación de JSON: Sanitiza y recupera datos parciales de la salida malformada del LLM en lugar de fallar por completo. Si 19 de 20 productos se analizan correctamente, obtienes esos 19.
- Automatización de navegador integrada: Utiliza Playwright con soporte para navegadores locales, sin servidor o remotos. Incluye parches anti-bot para web scraping confiable.
- Integración de navegación por IA: Se combina con @lightfeed/browser-agent para navegación de páginas impulsada por IA antes de la extracción.
- Manejo de URL: Gestiona URL relativas, elimina las inválidas, repara enlaces escapados en markdown y limpia parámetros de seguimiento.
Instalación y Uso
Instalar vía npm:
npm install @lightfeed/extractor
Luego instala tu proveedor de LLM preferido:
# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (modelos locales)
npm install @langchain/ollama
Ejemplo de uso para extracción de productos de comercio electrónico:
import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";
// Definir esquema para extracción de catálogo de productos
const productCatalogSchema = z.object({
products: z.array(
z.object({
name: z.string().describe("Nombre o título del producto"),
brand: z.string().optional().describe("Nombre de la marca"),
price: z.number().describe("Precio actual"),
originalPrice: z.number().optional().describe("Precio original si está en oferta"),
rating: z.number().optional().describe("Calificación del producto sobre 5"),
reviewCount: z.number().optional().describe("Número de reseñas"),
productUrl: z.string().url().describe("Enlace a la página de detalles del producto"),
imageUrl: z.string().url().optional().describe("URL de la imagen del producto")
})
).describe("Lista de productos de panadería y pan")
});
// Crear instancia del navegador
const browser = new Browser({
type: "local", // también soporta navegador sin servidor y remoto
headless: false
});
La biblioteca tiene licencia Apache 2.0 y se utiliza en producción en Lightfeed para flujos de datos que rastrean sitios web y extraen datos estructurados. Está diseñada para desarrolladores que construyen flujos de trabajo de web scraping y quieren evitar escribir código repetitivo para limpieza de HTML, conversión a markdown, llamadas a LLM, análisis de JSON, recuperación de errores y validación de esquemas.
📖 Leer la fuente completa: HN LLM Tools
👀 Ver también

Claude-IDE-Bridge Ahora Funciona en Servidores Remotos para Desarrollo Asistido por IA
La herramienta Claude-IDE-Bridge ahora conecta Claude AI con entornos de desarrollo remotos en VPS o máquinas en la nube, permitiendo el acceso a diagnósticos en vivo, archivos abiertos y fallos de pruebas desde cualquier dispositivo.

SuperHQ: Ejecuta agentes de codificación de IA en sandboxes de microVM aislados.
SuperHQ es una aplicación de código abierto en Rust/GPUI que ejecuta agentes de codificación de IA (Claude Code, OpenAI Codex, Pi) en sandboxes de microVM aislados. Cada agente obtiene una VM Debian completa, monta los directorios del proyecto en modo solo lectura y nunca ve las claves API del host, ya que se inyectan a través de un proxy de autenticación.

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI
civStation es una pila de uso informático de código abierto que permite el control por voz y lenguaje natural de Civilization VI, traduciendo comandos de estrategia de alto nivel en acciones de interfaz de usuario a través de un bucle de observación y ejecución basado en VLM.

Calculadora de Costos Gratuita de OpenClaw Muestra los Gastos de Configuración Antes de la Ejecución
Un desarrollador creó una herramienta gratuita y de código abierto para navegadores que calcula los costos de configuración de OpenClaw antes de ejecutarlos, desglosando los gastos por modelo principal, cadenas de respaldo, consumo de latidos y modo de facturación.