LiteParse : Analyseur de documents rapide et open source pour agents IA

✍️ OpenClawRadar📅 Publié: March 21, 2026🔗 Source
LiteParse : Analyseur de documents rapide et open source pour agents IA
Ad

LiteParse est un analyseur de documents open-source axé sur une analyse locale rapide avec extraction spatiale du texte et boîtes englobantes. Il fonctionne entièrement localement sans dépendances cloud ni exigences GPU, traitant des centaines de pages en quelques secondes.

Fonctionnalités principales

  • Outil open-source sous licence Apache 2.0
  • Analyse spatiale du texte avec boîtes englobantes pour un positionnement précis du texte
  • Aucune dépendance aux VLMs (Vision Language Models) locaux ou de pointe
  • Fonctionne sur n'importe quelle machine sans exigences GPU
  • Prend en charge plusieurs formats de fichiers : PDF, documents Office, images
  • Précision supérieure à des outils similaires comme PyPDF, PyMuPDF, MarkItDown
  • Installation en une ligne en tant que compétence pour plus de 40 agents IA, dont Claude Code, Cursor, OpenClaw, Windsurf

Options d'installation

Installation de l'outil CLI :

npm i -g @llamaindex/liteparse

Puis utilisez :

lit parse document.pdf
lit screenshot document.pdf

Pour macOS et Linux via Homebrew :

brew tap run-llama/liteparse
brew install llamaindex-liteparse

Installation de la compétence d'agent :

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

Exemples d'utilisation

Analyse de base :

lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr

Analyse par lots :

lit batch-parse ./input-directory ./output-directory

Génération de captures d'écran (utile pour les agents LLM) :

lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
Ad

Utilisation de la bibliothèque

Installer en tant que dépendance :

npm install @llamaindex/liteparse
# ou
pnpm add @llamaindex/liteparse

Utilisation de base :

import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);

Entrée Buffer/Uint8Array (sans E/S disque) :

import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);

Détails techniques

  • Système OCR flexible avec Tesseract.js intégré (configuration zéro)
  • Prend en charge les serveurs HTTP pour OCR (EasyOCR, PaddleOCR, personnalisés)
  • Spécification d'API OCR standard
  • Plusieurs formats de sortie : JSON et Texte
  • Binaire autonome sans dépendances cloud
  • Prise en charge multiplateforme : Linux, macOS (Intel/ARM), Windows

Pour les documents complexes avec des tableaux denses, des mises en page multi-colonnes, des graphiques, du texte manuscrit ou des PDF scannés, les créateurs recommandent LlamaParse, leur analyseur de documents basé sur le cloud conçu pour les pipelines de production de documents.

📖 Read the full source: HN AI Agents

Ad

👀 See Also