Lightfeed Extractor: TypeScript-Bibliothek für robuste Webdatenextraktion mit LLMs

✍️ OpenClawRadar📅 Veröffentlicht: 26. März 2026🔗 Source
Lightfeed Extractor: TypeScript-Bibliothek für robuste Webdatenextraktion mit LLMs
Ad

Lightfeed Extractor ist eine TypeScript-Bibliothek, die für robuste Webdatenextraktion mithilfe von LLMs und Playwright-Browser-Automatisierung entwickelt wurde. Sie adressiert häufige Probleme in Web-Scraping-Pipelines, bei denen traditionelle CSS-Selektoren versagen, wenn Websites ihr Layout ändern, und rohe LLM-Ansätze mit HTML-Rauschen, fehlerhaften JSON-Ausgaben und URL-Problemen kämpfen.

Hauptfunktionen

  • HTML-zu-LLM-fähige Markdown-Konvertierung: Extrahiert Hauptinhalte während Navigationsleisten, Header, Footer und Tracking-Müll entfernt werden. Beinhaltet optionale Bildintegration und URL-Bereinigung.
  • LLM-Extraktion mit Zod-Schemas: Funktioniert mit jedem LangChain-kompatiblen LLM (OpenAI, Gemini, Claude, Ollama) und verwendet Zod-Schemas für typsichere Extraktion mit echter Validierung.
  • JSON-Wiederherstellung: Bereinigt und stellt Teildaten aus fehlerhaften LLM-Ausgaben wieder her, anstatt komplett zu scheitern. Wenn 19 von 20 Produkten korrekt geparst werden, erhält man diese 19.
  • Integrierte Browser-Automatisierung: Verwendet Playwright mit Unterstützung für lokale, serverlose oder Remote-Browser. Beinhaltet Anti-Bot-Patches für zuverlässiges Web-Scraping.
  • AI-Browser-Navigation-Integration: Kombiniert mit @lightfeed/browser-agent für KI-gesteuerte Seitennavigation vor der Extraktion.
  • URL-Behandlung: Verwaltet relative URLs, entfernt ungültige, repariert Markdown-escaped Links und bereinigt Tracking-Parameter.
Ad

Installation und Verwendung

Installation über npm:

npm install @lightfeed/extractor

Dann installieren Sie Ihren bevorzugten LLM-Anbieter:

# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (lokale Modelle)
npm install @langchain/ollama

Beispielverwendung für E-Commerce-Produktextraktion:

import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";

// Schema für Produktkatalog-Extraktion definieren const productCatalogSchema = z.object({ products: z.array( z.object({ name: z.string().describe("Produktname oder Titel"), brand: z.string().optional().describe("Markenname"), price: z.number().describe("Aktueller Preis"), originalPrice: z.number().optional().describe("Originalpreis bei Angebot"), rating: z.number().optional().describe("Produktbewertung von 5"), reviewCount: z.number().optional().describe("Anzahl der Bewertungen"), productUrl: z.string().url().describe("Link zur Produktdetailseite"), imageUrl: z.string().url().optional().describe("Produktbild-URL") }) ).describe("Liste von Brot- und Backwarenprodukten") });

// Browser-Instanz erstellen const browser = new Browser({ type: "local", // unterstützt auch serverlose und Remote-Browser headless: false });

Die Bibliothek ist unter Apache 2.0 lizenziert und wird bei Lightfeed in Produktionsdatenpipelines eingesetzt, die Websites scrapen und strukturierte Daten extrahieren. Sie ist für Entwickler konzipiert, die Web-Scraping-Workflows erstellen und sich wiederholenden Boilerplate-Code für HTML-Bereinigung, Markdown-Konvertierung, LLM-Aufrufe, JSON-Parsing, Fehlerbehebung und Schema-Validierung vermeiden möchten.

📖 Read the full source: HN LLM Tools

Ad

👀 Siehe auch

Benutzerdefinierte Reddit MCP für Claude Desktop/Code auf GitHub geteilt
Werkzeuge

Benutzerdefinierte Reddit MCP für Claude Desktop/Code auf GitHub geteilt

Ein Entwickler hat ein selbst erstelltes Reddit MCP veröffentlicht, das speziell für Claude Desktop und Claude Code entwickelt wurde, um Reddit-Recherchen direkt in den Arbeitsablauf zu integrieren. Das Tool ist auf GitHub dokumentiert und steht kostenlos zur Verfügung.

OpenClawRadar
Nudge: Eine lokale App, die Claude-generierte Pläne durch kontextbezogene Auslöser anzeigt
Werkzeuge

Nudge: Eine lokale App, die Claude-generierte Pläne durch kontextbezogene Auslöser anzeigt

Nudge ist eine kostenlose iOS/Android-App, die lokal arbeitet und es dir ermöglicht, Markdown-Pläne (von Claude, ChatGPT, Notes) einzufügen und Auslöser wie Zeit, Ort, WLAN, Inaktivität oder einmalig hinzuzufügen, um sie über lokale Benachrichtigungen aufzurufen.

OpenClawRadar
Schiffbauer: Ein Open-Source-Projektmanagement-Tool, entwickelt auf Claude Code
Werkzeuge

Schiffbauer: Ein Open-Source-Projektmanagement-Tool, entwickelt auf Claude Code

Shipwright ist ein Open-Source-Projektmanagement-Tool, das auf Claude Code läuft und über 44 Fähigkeiten, 7 spezialisierte Agenten und 16 Workflows verfügt. Es umfasst binäre Qualitätskontrollen und Wiederherstellungsleitfäden und wurde zur Überprüfung von Berechtigungsregistern und zur Bewertung von Automatisierungsplattformen eingesetzt, bevor die Entwicklungsarbeit begann.

OpenClawRadar
200+ App-Design-Spezifikationen in Markdown – In Claude oder Cursor ziehen für exakte UI-Klone
Werkzeuge

200+ App-Design-Spezifikationen in Markdown – In Claude oder Cursor ziehen für exakte UI-Klone

Eine kuratierte Sammlung von über 200 beliebten Apps als strukturierte Markdown-Designspezifikationen mit exakten Hex-Codes, Schriftgrößen, Abständen, jedem Bildschirmzustand und Navigationsgraphen. In Claude, Cursor oder jeden anderen KI-Agenten einfügen, um SwiftUI-, Jetpack-Compose- oder Expo-UI-Klone zu generieren, ohne Farben oder Abstände raten zu müssen.

OpenClawRadar