LiteParse: AI 에이전트를 위한 빠른 오픈소스 문서 파서

LiteParse는 빠른 로컬 파싱과 공간 텍스트 추출 및 경계 상자에 중점을 둔 오픈소스 문서 파서입니다. 클라우드 의존성이나 GPU 요구 사항 없이 완전히 로컬에서 실행되며, 수백 페이지를 몇 초 만에 처리합니다.
주요 기능
- Apache 2.0 라이선스 오픈소스 도구
- 정확한 텍스트 위치 지정을 위한 경계 상자가 있는 공간 텍스트 파싱
- 로컬 또는 최신 VLM(비전 언어 모델)에 의존하지 않음
- GPU 요구 사항 없이 모든 기기에서 실행
- 여러 파일 형식 지원: PDF, 오피스 문서, 이미지
- PyPDF, PyMuPDF, MarkItDown과 같은 유사 도구보다 높은 정확도
- Claude Code, Cursor, OpenClaw, Windsurf를 포함한 40개 이상의 AI 에이전트용 스킬로 한 줄 설치
설치 옵션
CLI 도구 설치:
npm i -g @llamaindex/liteparse
사용 방법:
lit parse document.pdf
lit screenshot document.pdf
macOS 및 Linux용 Homebrew:
brew tap run-llama/liteparse
brew install llamaindex-liteparse
에이전트 스킬 설치:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
사용 예시
기본 파싱:
lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr
일괄 파싱:
lit batch-parse ./input-directory ./output-directory
스크린샷 생성 (LLM 에이전트에 유용):
lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
라이브러리 사용
의존성으로 설치:
npm install @llamaindex/liteparse
# 또는
pnpm add @llamaindex/liteparse
기본 사용법:
import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);
Buffer/Uint8Array 입력 (디스크 I/O 없음):
import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);
기술적 세부 사항
- 내장 Tesseract.js가 있는 유연한 OCR 시스템 (설정 불필요)
- OCR용 HTTP 서버 지원 (EasyOCR, PaddleOCR, 사용자 정의)
- 표준 OCR API 사양
- 여러 출력 형식: JSON 및 텍스트
- 클라우드 의존성 없는 독립 실행형 바이너리
- 다중 플랫폼 지원: Linux, macOS (Intel/ARM), Windows
밀집된 테이블, 다중 열 레이아웃, 차트, 손글씨 텍스트 또는 스캔된 PDF가 있는 복잡한 문서의 경우, 제작자는 프로덕션 문서 파이프라인을 위해 구축된 클라우드 기반 문서 파서인 LlamaParse를 권장합니다.
📖 전체 Source 읽기: HN AI Agents
👀 See Also

Nakkas MCP 서버는 AI 설명으로부터 애니메이션 SVG를 생성합니다
Nakkas는 설명으로부터 완전한 애니메이션 SVG 구성을 AI가 구성하는 MCP 서버로, 도형, 그라데이션, 애니메이션, 필터를 포함한 깔끔한 애니메이션 SVG를 렌더링합니다. 파라메트릭 곡선, 15가지 필터 프리셋, CSS @keyframes 및 SMIL 애니메이션을 지원하며, SVG가 렌더링되는 모든 곳에서 작동합니다.

cc+ 데스크톱 앱 for Claude Code: 다중 세션 관리 및 플릿 오케스트레이션
cc+는 Claude Agent SDK를 기반으로 구축된 Claude Code용 오픈 소스 데스크톱 애플리케이션으로, macOS와 Linux에서 사용할 수 있습니다. 멀티세션 탭, 실시간 활동 트리 시각화, 보안 점수 평가, 워크플로우 강제 적용, 그리고 플릿 오케스트레이션 기능을 제공합니다.

OpenClaw 개발자가 AI 에이전트를 위한 통합 메모리 시스템 구축
한 개발자가 구조화된 사실, 벡터 검색, 엔티티 그래프, 에피소드 타임라인, 계층적 압축, 이벤트 기반 조정을 결합한 15가지 도구 통합 메모리 시스템을 OpenClaw AI 에이전트용으로 구축했습니다. 이 시스템은 클라우드 의존성이나 월별 요금 없이 로컬에서 실행됩니다.

ClawNet: API 키 없이 피어 투 피어 AI 에이전트 네트워크
ClawNet은 API 키나 플랫폼 수수료 없이 AI 에이전트가 직접 협업할 수 있는 피어투피어 네트워크입니다. curl 스크립트를 통해 설치할 수 있으며, 태스크 바자, 셸 경제, 지식 네트워크 등의 기능을 제공합니다.