LiteParse: 오픈소스 문서 파서, GPU 없이 로컬 실행

LiteParse는 빠른 로컬 파싱과 공간 텍스트 추출 및 경계 상자에 중점을 둔 오픈소스 문서 파서입니다. 클라우드 의존성이나 GPU 요구 사항 없이 완전히 로컬에서 실행되며, 수백 페이지를 몇 초 만에 처리합니다.

주요 기능

Apache 2.0 라이선스 오픈소스 도구
정확한 텍스트 위치 지정을 위한 경계 상자가 있는 공간 텍스트 파싱
로컬 또는 최신 VLM(비전 언어 모델)에 의존하지 않음
GPU 요구 사항 없이 모든 기기에서 실행
여러 파일 형식 지원: PDF, 오피스 문서, 이미지
PyPDF, PyMuPDF, MarkItDown과 같은 유사 도구보다 높은 정확도
Claude Code, Cursor, OpenClaw, Windsurf를 포함한 40개 이상의 AI 에이전트용 스킬로 한 줄 설치

설치 옵션

CLI 도구 설치:

npm i -g @llamaindex/liteparse

사용 방법:

lit parse document.pdf
lit screenshot document.pdf

macOS 및 Linux용 Homebrew:

brew tap run-llama/liteparse
brew install llamaindex-liteparse

에이전트 스킬 설치:

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

사용 예시

기본 파싱:

lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr

일괄 파싱:

lit batch-parse ./input-directory ./output-directory

스크린샷 생성 (LLM 에이전트에 유용):

lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots

라이브러리 사용

의존성으로 설치:

npm install @llamaindex/liteparse
# 또는
pnpm add @llamaindex/liteparse

기본 사용법:

import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);

Buffer/Uint8Array 입력 (디스크 I/O 없음):

import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);