LiteParse: AIエージェント向け高速オープンソース文書パーサー

✍️ OpenClawRadar📅 公開日: March 21, 2026🔗 Source
LiteParse: AIエージェント向け高速オープンソース文書パーサー
Ad

LiteParseは、高速なローカル解析と空間テキスト抽出・バウンディングボックスに焦点を当てたオープンソースのドキュメントパーサーです。クラウド依存やGPUを必要とせず、完全にローカルで動作し、数百ページを数秒で処理します。

主な機能

  • Apache 2.0ライセンスのオープンソースツール
  • 正確なテキスト配置のためのバウンディングボックスを伴う空間テキスト解析
  • ローカルまたは最先端のVLM(Vision Language Models)に依存しない
  • GPUを必要とせず、あらゆるマシンで動作
  • 複数のファイル形式をサポート:PDF、Office文書、画像
  • PyPDF、PyMuPDF、MarkItDownなどの類似ツールよりも高い精度
  • Claude Code、Cursor、OpenClaw、Windsurfを含む40以上のAIエージェント向けスキルとしてワンラインインストール可能

インストール方法

CLIツールのインストール:

npm i -g @llamaindex/liteparse

使用例:

lit parse document.pdf
lit screenshot document.pdf

macOSおよびLinux(Homebrew経由):

brew tap run-llama/liteparse
brew install llamaindex-liteparse

エージェントスキルのインストール:

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

使用例

基本的な解析:

lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr

バッチ解析:

lit batch-parse ./input-directory ./output-directory

スクリーンショット生成(LLMエージェントに有用):

lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
Ad

ライブラリの使用

依存関係としてインストール:

npm install @llamaindex/liteparse
# または
pnpm add @llamaindex/liteparse

基本的な使用法:

import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);

Buffer/Uint8Array入力(ディスクI/Oなし):

import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);

技術詳細

  • 組み込みTesseract.jsを備えた柔軟なOCRシステム(セットアップ不要)
  • OCR用HTTPサーバーをサポート(EasyOCR、PaddleOCR、カスタム)
  • 標準OCR API仕様
  • 複数の出力形式:JSONおよびテキスト
  • クラウド依存なしのスタンドアロンバイナリ
  • マルチプラットフォームサポート:Linux、macOS(Intel/ARM)、Windows

複雑な表、マルチカラムレイアウト、チャート、手書きテキスト、またはスキャンされたPDFを含む複雑な文書については、開発者は本番ドキュメントパイプライン向けに構築されたクラウドベースのドキュメントパーサーであるLlamaParseを推奨しています。

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Voxray-AI: リアルタイム音声エージェントパイプライン向け本番用Goバックエンド
Tools

Voxray-AI: リアルタイム音声エージェントパイプライン向け本番用Goバックエンド

Voxray-AIは、Whisper → 任意のLLM → TTSをリアルタイム音声エージェントパイプラインに連鎖させるGoバックエンドです。WebSocketとWebRTCをサポートし、本番環境レベルのサーバーと高並列音声ワークロード向けに構築されており、STT、LLM、TTSレイヤーに設定可能なプロバイダーを備えています。

OpenClawRadar
チャットセーバーCG:Claudeで構築されたブラウザ拡張機能、12のAIプラットフォーム間で会話をエクスポート
Tools

チャットセーバーCG:Claudeで構築されたブラウザ拡張機能、12のAIプラットフォーム間で会話をエクスポート

開発者がChat Saver CGというブラウザ拡張機能をリリースしました。このツールはClaude、ChatGPT、Geminiなど複数のAIプラットフォーム間で会話をエクスポート・転送できます。開発プロセス全体でClaudeが大きく貢献しました。

OpenClawRadar
ボデガ推論エンジン:Apple Siliconの統一メモリ向けLLM推論最適化
Tools

ボデガ推論エンジン:Apple Siliconの統一メモリ向けLLM推論最適化

Bodegaは、Apple Siliconの統一メモリアーキテクチャに特化して構築された推論エンジンで、MLX向けの継続的バッチ処理とKVキャッシュ管理を再設計することでスループットの制限に対処しています。開発者は2.5年間かけてMetalレイヤーに近い最適化を行ったと報告しています。

OpenClawRadar
SkyClaw:Telegram制御を備えたクラウドVPS向けRust AIエージェントランタイム
Tools

SkyClaw:Telegram制御を備えたクラウドVPS向けRust AIエージェントランタイム

SkyClawは、クラウドVPSへのデプロイを目的とした6.9 MBのRustベースAIエージェントランタイムで、Telegramを唯一のインターフェースとして設計されています。シェルコマンドの実行、ヘッドレスChromeによるウェブ閲覧、ファイルの読み書き、URLの取得、マルチラウンドのツールチェーン機能を備えています。

OpenClawRadar