Extractor Lightfeed: Biblioteca TypeScript para Extracción Robusta de Datos Web con LLMs

✍️ OpenClawRadar📅 Publicado: 26 de marzo de 2026🔗 Source
Extractor Lightfeed: Biblioteca TypeScript para Extracción Robusta de Datos Web con LLMs
Ad

Lightfeed Extractor es una biblioteca TypeScript diseñada para una extracción robusta de datos web utilizando LLMs y automatización de navegador Playwright. Aborda problemas comunes en los flujos de trabajo de web scraping donde los selectores CSS tradicionales fallan cuando los sitios cambian su diseño, y los enfoques de LLM crudos tienen dificultades con el ruido HTML, la salida JSON malformada y problemas con las URL.

Características Principales

  • Conversión de HTML a markdown listo para LLM: Extrae el contenido principal eliminando barras de navegación, encabezados, pies de página y basura de seguimiento. Incluye inclusión opcional de imágenes y limpieza de URL.
  • Extracción con LLM y esquemas Zod: Funciona con cualquier LLM compatible con LangChain (OpenAI, Gemini, Claude, Ollama) y utiliza esquemas Zod para extracción con tipos seguros y validación real.
  • Recuperación de JSON: Sanitiza y recupera datos parciales de la salida malformada del LLM en lugar de fallar por completo. Si 19 de 20 productos se analizan correctamente, obtienes esos 19.
  • Automatización de navegador integrada: Utiliza Playwright con soporte para navegadores locales, sin servidor o remotos. Incluye parches anti-bot para web scraping confiable.
  • Integración de navegación por IA: Se combina con @lightfeed/browser-agent para navegación de páginas impulsada por IA antes de la extracción.
  • Manejo de URL: Gestiona URL relativas, elimina las inválidas, repara enlaces escapados en markdown y limpia parámetros de seguimiento.
Ad

Instalación y Uso

Instalar vía npm:

npm install @lightfeed/extractor

Luego instala tu proveedor de LLM preferido:

# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (modelos locales)
npm install @langchain/ollama

Ejemplo de uso para extracción de productos de comercio electrónico:

import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";

// Definir esquema para extracción de catálogo de productos const productCatalogSchema = z.object({ products: z.array( z.object({ name: z.string().describe("Nombre o título del producto"), brand: z.string().optional().describe("Nombre de la marca"), price: z.number().describe("Precio actual"), originalPrice: z.number().optional().describe("Precio original si está en oferta"), rating: z.number().optional().describe("Calificación del producto sobre 5"), reviewCount: z.number().optional().describe("Número de reseñas"), productUrl: z.string().url().describe("Enlace a la página de detalles del producto"), imageUrl: z.string().url().optional().describe("URL de la imagen del producto") }) ).describe("Lista de productos de panadería y pan") });

// Crear instancia del navegador const browser = new Browser({ type: "local", // también soporta navegador sin servidor y remoto headless: false });

La biblioteca tiene licencia Apache 2.0 y se utiliza en producción en Lightfeed para flujos de datos que rastrean sitios web y extraen datos estructurados. Está diseñada para desarrolladores que construyen flujos de trabajo de web scraping y quieren evitar escribir código repetitivo para limpieza de HTML, conversión a markdown, llamadas a LLM, análisis de JSON, recuperación de errores y validación de esquemas.

📖 Leer la fuente completa: HN LLM Tools

Ad

👀 Ver también

Claude-IDE-Bridge Ahora Funciona en Servidores Remotos para Desarrollo Asistido por IA
Herramientas

Claude-IDE-Bridge Ahora Funciona en Servidores Remotos para Desarrollo Asistido por IA

La herramienta Claude-IDE-Bridge ahora conecta Claude AI con entornos de desarrollo remotos en VPS o máquinas en la nube, permitiendo el acceso a diagnósticos en vivo, archivos abiertos y fallos de pruebas desde cualquier dispositivo.

OpenClawRadar
SuperHQ: Ejecuta agentes de codificación de IA en sandboxes de microVM aislados.
Herramientas

SuperHQ: Ejecuta agentes de codificación de IA en sandboxes de microVM aislados.

SuperHQ es una aplicación de código abierto en Rust/GPUI que ejecuta agentes de codificación de IA (Claude Code, OpenAI Codex, Pi) en sandboxes de microVM aislados. Cada agente obtiene una VM Debian completa, monta los directorios del proyecto en modo solo lectura y nunca ve las claves API del host, ya que se inyectan a través de un proxy de autenticación.

OpenClawRadar
civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI
Herramientas

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI

civStation es una pila de uso informático de código abierto que permite el control por voz y lenguaje natural de Civilization VI, traduciendo comandos de estrategia de alto nivel en acciones de interfaz de usuario a través de un bucle de observación y ejecución basado en VLM.

OpenClawRadar
Calculadora de Costos Gratuita de OpenClaw Muestra los Gastos de Configuración Antes de la Ejecución
Herramientas

Calculadora de Costos Gratuita de OpenClaw Muestra los Gastos de Configuración Antes de la Ejecución

Un desarrollador creó una herramienta gratuita y de código abierto para navegadores que calcula los costos de configuración de OpenClaw antes de ejecutarlos, desglosando los gastos por modelo principal, cadenas de respaldo, consumo de latidos y modo de facturación.

OpenClawRadar