Extracteur Lightfeed : Bibliothèque TypeScript pour une Extraction Robuste de Données Web avec LLMs

✍️ OpenClawRadar📅 Publié: March 26, 2026🔗 Source
Extracteur Lightfeed : Bibliothèque TypeScript pour une Extraction Robuste de Données Web avec LLMs
Ad

Lightfeed Extractor est une bibliothèque TypeScript conçue pour une extraction robuste de données web en utilisant des LLM et l'automatisation de navigateur Playwright. Elle résout les problèmes courants des pipelines de scraping web où les sélecteurs CSS traditionnels échouent lorsque les sites modifient leur mise en page, et où les approches LLM brutes peinent avec le bruit HTML, les sorties JSON malformées et les problèmes d'URL.

Fonctionnalités principales

  • Conversion HTML vers markdown prêt pour LLM : Extrait le contenu principal tout en supprimant les barres de navigation, en-têtes, pieds de page et éléments de suivi indésirables. Inclut l'inclusion optionnelle d'images et le nettoyage d'URL.
  • Extraction LLM avec schémas Zod : Fonctionne avec tout LLM compatible LangChain (OpenAI, Gemini, Claude, Ollama) et utilise des schémas Zod pour une extraction typée avec une validation réelle.
  • Récupération JSON : Assainit et récupère les données partielles des sorties LLM malformées au lieu d'échouer complètement. Si 19 produits sur 20 sont correctement analysés, vous obtenez ces 19.
  • Automatisation de navigateur intégrée : Utilise Playwright avec prise en charge des navigateurs locaux, sans serveur ou distants. Inclut des correctifs anti-bot pour un scraping web fiable.
  • Intégration de navigation navigateur par IA : S'associe à @lightfeed/browser-agent pour une navigation de page pilotée par IA avant l'extraction.
  • Gestion des URL : Gère les URL relatives, supprime celles qui sont invalides, répare les liens échappés en markdown et nettoie les paramètres de suivi.
Ad

Installation et utilisation

Installez via npm :

npm install @lightfeed/extractor

Puis installez votre fournisseur LLM préféré :

# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (modèles locaux)
npm install @langchain/ollama

Exemple d'utilisation pour l'extraction de produits e-commerce :

import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";

// Définir le schéma pour l'extraction de catalogue de produits const productCatalogSchema = z.object({ products: z.array( z.object({ name: z.string().describe("Nom ou titre du produit"), brand: z.string().optional().describe("Nom de la marque"), price: z.number().describe("Prix actuel"), originalPrice: z.number().optional().describe("Prix d'origine si en promotion"), rating: z.number().optional().describe("Note du produit sur 5"), reviewCount: z.number().optional().describe("Nombre d'avis"), productUrl: z.string().url().describe("Lien vers la page de détail du produit"), imageUrl: z.string().url().optional().describe("URL de l'image du produit") }) ).describe("Liste des produits de pain et boulangerie") });

// Créer une instance de navigateur const browser = new Browser({ type: "local", // prend également en charge les navigateurs sans serveur et distants headless: false });

La bibliothèque est sous licence Apache 2.0 et utilisée en production chez Lightfeed pour les pipelines de données qui scrapent des sites web et extraient des données structurées. Elle est conçue pour les développeurs construisant des workflows de scraping web qui souhaitent éviter d'écrire du code répétitif pour le nettoyage HTML, la conversion markdown, les appels LLM, l'analyse JSON, la récupération d'erreurs et la validation de schéma.

📖 Read the full source: HN LLM Tools

Ad

👀 See Also

DESIGN.md : Un format de spécification pour décrire l'identité visuelle aux agents de codage
Tools

DESIGN.md : Un format de spécification pour décrire l'identité visuelle aux agents de codage

DESIGN.md combine des jetons de design YAML avec de la prose Markdown pour donner aux agents IA une compréhension persistante et structurée d'un système de design. Inclut un linter et un outil de diff.

OpenClawRadar
Utilisation de Claude pour automatiser le contrôle qualité d'applications mobiles avec les WebViews Capacitor
Tools

Utilisation de Claude pour automatiser le contrôle qualité d'applications mobiles avec les WebViews Capacitor

Un développeur a créé un système de QA automatisé utilisant Claude pour tester une application mobile basée sur Capacitor sur Android et iOS. L'approche utilise le Chrome DevTools Protocol pour les WebViews Android et des captures d'écran pour l'analyse visuelle, avec une configuration Android prenant 90 minutes contre plus de 6 heures pour iOS.

OpenClawRadar
Outil MCP Propulsé par Claude Génère des Composants HTML Interactifs Sans Outils de Construction
Tools

Outil MCP Propulsé par Claude Génère des Composants HTML Interactifs Sans Outils de Construction

Un développeur a créé daub.dev, un système où Claude pilote un serveur MCP pour produire des composants d'interface HTML stylisés et interactifs à partir de descriptions en langage naturel, sans React, bundlers ou pipelines de construction.

OpenClawRadar
TideSurf : l'outil de compression DOM réduit l'utilisation de tokens des agents web par 30, et accélère le TTFT par 12
Tools

TideSurf : l'outil de compression DOM réduit l'utilisation de tokens des agents web par 30, et accélère le TTFT par 12

TideSurf v0.3 convertit le DOM rendu en un format compressé de type markdown, réduisant la consommation de jetons par 32x sur les pages GitHub par rapport au DOM brut, tout en ajoutant 18 outils interactifs pour les agents LLM.

OpenClawRadar