LiteParse: AIエージェント向け高速オープンソース文書パーサー

LiteParseは、高速なローカル解析と空間テキスト抽出・バウンディングボックスに焦点を当てたオープンソースのドキュメントパーサーです。クラウド依存やGPUを必要とせず、完全にローカルで動作し、数百ページを数秒で処理します。
主な機能
- Apache 2.0ライセンスのオープンソースツール
- 正確なテキスト配置のためのバウンディングボックスを伴う空間テキスト解析
- ローカルまたは最先端のVLM(Vision Language Models)に依存しない
- GPUを必要とせず、あらゆるマシンで動作
- 複数のファイル形式をサポート:PDF、Office文書、画像
- PyPDF、PyMuPDF、MarkItDownなどの類似ツールよりも高い精度
- Claude Code、Cursor、OpenClaw、Windsurfを含む40以上のAIエージェント向けスキルとしてワンラインインストール可能
インストール方法
CLIツールのインストール:
npm i -g @llamaindex/liteparse
使用例:
lit parse document.pdf
lit screenshot document.pdf
macOSおよびLinux(Homebrew経由):
brew tap run-llama/liteparse
brew install llamaindex-liteparse
エージェントスキルのインストール:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
使用例
基本的な解析:
lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr
バッチ解析:
lit batch-parse ./input-directory ./output-directory
スクリーンショット生成(LLMエージェントに有用):
lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
ライブラリの使用
依存関係としてインストール:
npm install @llamaindex/liteparse
# または
pnpm add @llamaindex/liteparse
基本的な使用法:
import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);
Buffer/Uint8Array入力(ディスクI/Oなし):
import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);
技術詳細
- 組み込みTesseract.jsを備えた柔軟なOCRシステム(セットアップ不要)
- OCR用HTTPサーバーをサポート(EasyOCR、PaddleOCR、カスタム)
- 標準OCR API仕様
- 複数の出力形式:JSONおよびテキスト
- クラウド依存なしのスタンドアロンバイナリ
- マルチプラットフォームサポート:Linux、macOS(Intel/ARM)、Windows
複雑な表、マルチカラムレイアウト、チャート、手書きテキスト、またはスキャンされたPDFを含む複雑な文書については、開発者は本番ドキュメントパイプライン向けに構築されたクラウドベースのドキュメントパーサーであるLlamaParseを推奨しています。
📖 Read the full source: HN AI Agents
👀 See Also

Voxray-AI: リアルタイム音声エージェントパイプライン向け本番用Goバックエンド
Voxray-AIは、Whisper → 任意のLLM → TTSをリアルタイム音声エージェントパイプラインに連鎖させるGoバックエンドです。WebSocketとWebRTCをサポートし、本番環境レベルのサーバーと高並列音声ワークロード向けに構築されており、STT、LLM、TTSレイヤーに設定可能なプロバイダーを備えています。

チャットセーバーCG:Claudeで構築されたブラウザ拡張機能、12のAIプラットフォーム間で会話をエクスポート
開発者がChat Saver CGというブラウザ拡張機能をリリースしました。このツールはClaude、ChatGPT、Geminiなど複数のAIプラットフォーム間で会話をエクスポート・転送できます。開発プロセス全体でClaudeが大きく貢献しました。

ボデガ推論エンジン:Apple Siliconの統一メモリ向けLLM推論最適化
Bodegaは、Apple Siliconの統一メモリアーキテクチャに特化して構築された推論エンジンで、MLX向けの継続的バッチ処理とKVキャッシュ管理を再設計することでスループットの制限に対処しています。開発者は2.5年間かけてMetalレイヤーに近い最適化を行ったと報告しています。

SkyClaw:Telegram制御を備えたクラウドVPS向けRust AIエージェントランタイム
SkyClawは、クラウドVPSへのデプロイを目的とした6.9 MBのRustベースAIエージェントランタイムで、Telegramを唯一のインターフェースとして設計されています。シェルコマンドの実行、ヘッドレスChromeによるウェブ閲覧、ファイルの読み書き、URLの取得、マルチラウンドのツールチェーン機能を備えています。