Lightfeed Extractor: LLMを活用した堅牢なWebデータ抽出のためのTypeScriptライブラリ

Lightfeed Extractorは、LLMとPlaywrightブラウザ自動化を使用した堅牢なウェブデータ抽出のために構築されたTypeScriptライブラリです。従来のCSSセレクターがサイトのレイアウト変更で壊れる場合や、生のLLMアプローチがHTMLノイズ、不正なJSON出力、URL問題に苦戦するウェブスクレイピングパイプラインの一般的な課題に対処します。
主な機能
- HTMLからLLM対応マークダウンへの変換: ナビゲーションバー、ヘッダー、フッター、追跡ジャンクを除去しながらメインコンテンツを抽出します。オプションで画像を含めることやURLクリーニングもサポート。
- Zodスキーマを使用したLLM抽出: あらゆるLangChain互換LLM(OpenAI、Gemini、Claude、Ollama)と連携し、実際の検証を伴うタイプセーフな抽出のためにZodスキーマを使用します。
- JSON回復: 不正なLLM出力から部分データをサニタイズして回復し、完全に失敗するのを防ぎます。20個の製品のうち19個が正しく解析されれば、その19個を取得できます。
- 組み込みブラウザ自動化: ローカル、サーバーレス、リモートブラウザをサポートするPlaywrightを使用します。信頼性の高いウェブスクレイピングのためのアンチボットパッチを含みます。
- AIブラウザナビゲーション統合: 抽出前のAI駆動ページナビゲーションのために@lightfeed/browser-agentと連携します。
- URL処理: 相対URLの管理、無効なURLの削除、マークダウンエスケープリンクの修復、追跡パラメータのクリーニングを行います。
インストールと使用方法
npm経由でインストール:
npm install @lightfeed/extractor
次に、希望するLLMプロバイダーをインストール:
# OpenAI
npm install @langchain/openai
# Google Gemini
npm install @langchain/google-genai
# Anthropic
npm install @langchain/anthropic
# Ollama (ローカルモデル)
npm install @langchain/ollama
Eコマース製品抽出の使用例:
import { ChatGoogleGenerativeAI } from "@langchain/google-genai";
import { extract, ContentFormat, Browser } from "@lightfeed/extractor";
import { z } from "zod";
// 製品カタログ抽出のためのスキーマを定義
const productCatalogSchema = z.object({
products: z.array(
z.object({
name: z.string().describe("製品名またはタイトル"),
brand: z.string().optional().describe("ブランド名"),
price: z.number().describe("現在の価格"),
originalPrice: z.number().optional().describe("セール中の場合は元の価格"),
rating: z.number().optional().describe("5段階評価での製品評価"),
reviewCount: z.number().optional().describe("レビュー数"),
productUrl: z.string().url().describe("製品詳細ページへのリンク"),
imageUrl: z.string().url().optional().describe("製品画像URL")
})
).describe("パンとベーカリー製品のリスト")
});
// ブラウザインスタンスを作成
const browser = new Browser({
type: "local", // サーバーレスおよびリモートブラウザもサポート
headless: false
});
このライブラリはApache 2.0ライセンスで、Lightfeedの本番環境でウェブサイトをスクレイピングして構造化データを抽出するデータパイプラインに使用されています。HTMLクリーンアップ、マークダウン変換、LLM呼び出し、JSON解析、エラー回復、スキーマ検証のための繰り返しの定型コードを書くことを避けたいウェブスクレイピングワークフローを構築する開発者向けに設計されています。
📖 完全なソースを読む: HN LLM Tools
👀 See Also

OpenObscure:AIエージェント向けオープンソース・オンデバイスプライバシーファイアウォール
OpenObscureは、オープンソースのオンデバイスプライバシーファイアウォールで、AIエージェントとLLMプロバイダーの間に位置し、FF1形式保存暗号化を使用して、リクエストがデバイスを離れる前にPII値を暗号化します。99.7%の再現率を誇るPII検出、認知的ファイアウォールスキャン機能を備え、macOS/Linux/Windowsで動作し、iOS/Androidバインディングもサポートしています。

Memctl:AIコーディングエージェント向けの永続メモリ用オープンソースMCPサーバー
Memctlは、セッション、マシン、IDEを超えてAIコーディングエージェントに永続的なメモリを提供するオープンソースのMCPサーバーです。主にClaude Codeを使って2週間で構築され、プロジェクトのコンテキストを保存し、その後のセッションで提供します。

Screenbox:音声のみで構築されたAIエージェント向けオープンソース仮想デスクトップ
Screenboxは、AIエージェント向けにDocker内で隔離されたLinuxデスクトップを提供し、複数のエージェントを並列実行する際の競合を解決します。このプロジェクトはClaude Codeを使用した音声コマンドのみで構築され、作成者はコードの一行も見たことがありません。

8つのAIコーディングモデルを実世界のTypeScript機能実装で比較
ある開発者が、オープンソースのTypeScript Telegramボットプロジェクトで/renameコマンドを実装するという課題で8つのAIコーディングモデルをテストし、コスト、実行時間、正確性、技術的品質の観点から評価しました。GPT-5.4は実装の正確性で最高得点を獲得し、GLM 5は最高のコストパフォーマンスを提供しました。