Lightfeed Extractor: TypeScript-Bibliothek für robuste Webdatenextraktion mit LLMs

Lightfeed Extractor ist eine TypeScript-Bibliothek, die für robuste Webdatenextraktion mithilfe von LLMs und Playwright-Browser-Automatisierung entwickelt wurde. Sie adressiert häufige Probleme in Web-Scraping-Pipelines, bei denen traditionelle CSS-Selektoren versagen, wenn Websites ihr Layout ändern, und rohe LLM-Ansätze mit HTML-Rauschen, fehlerhaften JSON-Ausgaben und URL-Problemen kämpfen.
Hauptfunktionen
- HTML-zu-LLM-fähige Markdown-Konvertierung: Extrahiert Hauptinhalte während Navigationsleisten, Header, Footer und Tracking-Müll entfernt werden. Beinhaltet optionale Bildintegration und URL-Bereinigung.
- LLM-Extraktion mit Zod-Schemas: Funktioniert mit jedem LangChain-kompatiblen LLM (OpenAI, Gemini, Claude, Ollama) und verwendet Zod-Schemas für typsichere Extraktion mit echter Validierung.
- JSON-Wiederherstellung: Bereinigt und stellt Teildaten aus fehlerhaften LLM-Ausgaben wieder her, anstatt komplett zu scheitern. Wenn 19 von 20 Produkten korrekt geparst werden, erhält man diese 19.
- Integrierte Browser-Automatisierung: Verwendet Playwright mit Unterstützung für lokale, serverlose oder Remote-Browser. Beinhaltet Anti-Bot-Patches für zuverlässiges Web-Scraping.
- AI-Browser-Navigation-Integration: Kombiniert mit @lightfeed/browser-agent für KI-gesteuerte Seitennavigation vor der Extraktion.
- URL-Behandlung: Verwaltet relative URLs, entfernt ungültige, repariert Markdown-escaped Links und bereinigt Tracking-Parameter.
Installation und Verwendung
Installation über npm:
npm install @lightfeed/extractor
Dann installieren Sie Ihren bevorzugten LLM-Anbieter:
# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (lokale Modelle)
npm install @langchain/ollama
Beispielverwendung für E-Commerce-Produktextraktion:
import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";
// Schema für Produktkatalog-Extraktion definieren
const productCatalogSchema = z.object({
products: z.array(
z.object({
name: z.string().describe("Produktname oder Titel"),
brand: z.string().optional().describe("Markenname"),
price: z.number().describe("Aktueller Preis"),
originalPrice: z.number().optional().describe("Originalpreis bei Angebot"),
rating: z.number().optional().describe("Produktbewertung von 5"),
reviewCount: z.number().optional().describe("Anzahl der Bewertungen"),
productUrl: z.string().url().describe("Link zur Produktdetailseite"),
imageUrl: z.string().url().optional().describe("Produktbild-URL")
})
).describe("Liste von Brot- und Backwarenprodukten")
});
// Browser-Instanz erstellen
const browser = new Browser({
type: "local", // unterstützt auch serverlose und Remote-Browser
headless: false
});
Die Bibliothek ist unter Apache 2.0 lizenziert und wird bei Lightfeed in Produktionsdatenpipelines eingesetzt, die Websites scrapen und strukturierte Daten extrahieren. Sie ist für Entwickler konzipiert, die Web-Scraping-Workflows erstellen und sich wiederholenden Boilerplate-Code für HTML-Bereinigung, Markdown-Konvertierung, LLM-Aufrufe, JSON-Parsing, Fehlerbehebung und Schema-Validierung vermeiden möchten.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Benutzerdefinierte Reddit MCP für Claude Desktop/Code auf GitHub geteilt
Ein Entwickler hat ein selbst erstelltes Reddit MCP veröffentlicht, das speziell für Claude Desktop und Claude Code entwickelt wurde, um Reddit-Recherchen direkt in den Arbeitsablauf zu integrieren. Das Tool ist auf GitHub dokumentiert und steht kostenlos zur Verfügung.

Nudge: Eine lokale App, die Claude-generierte Pläne durch kontextbezogene Auslöser anzeigt
Nudge ist eine kostenlose iOS/Android-App, die lokal arbeitet und es dir ermöglicht, Markdown-Pläne (von Claude, ChatGPT, Notes) einzufügen und Auslöser wie Zeit, Ort, WLAN, Inaktivität oder einmalig hinzuzufügen, um sie über lokale Benachrichtigungen aufzurufen.

Schiffbauer: Ein Open-Source-Projektmanagement-Tool, entwickelt auf Claude Code
Shipwright ist ein Open-Source-Projektmanagement-Tool, das auf Claude Code läuft und über 44 Fähigkeiten, 7 spezialisierte Agenten und 16 Workflows verfügt. Es umfasst binäre Qualitätskontrollen und Wiederherstellungsleitfäden und wurde zur Überprüfung von Berechtigungsregistern und zur Bewertung von Automatisierungsplattformen eingesetzt, bevor die Entwicklungsarbeit begann.

200+ App-Design-Spezifikationen in Markdown – In Claude oder Cursor ziehen für exakte UI-Klone
Eine kuratierte Sammlung von über 200 beliebten Apps als strukturierte Markdown-Designspezifikationen mit exakten Hex-Codes, Schriftgrößen, Abständen, jedem Bildschirmzustand und Navigationsgraphen. In Claude, Cursor oder jeden anderen KI-Agenten einfügen, um SwiftUI-, Jetpack-Compose- oder Expo-UI-Klone zu generieren, ohne Farben oder Abstände raten zu müssen.