LiteParse : Analyseur de documents rapide et open source pour agents IA

LiteParse est un analyseur de documents open-source axé sur une analyse locale rapide avec extraction spatiale du texte et boîtes englobantes. Il fonctionne entièrement localement sans dépendances cloud ni exigences GPU, traitant des centaines de pages en quelques secondes.
Fonctionnalités principales
- Outil open-source sous licence Apache 2.0
- Analyse spatiale du texte avec boîtes englobantes pour un positionnement précis du texte
- Aucune dépendance aux VLMs (Vision Language Models) locaux ou de pointe
- Fonctionne sur n'importe quelle machine sans exigences GPU
- Prend en charge plusieurs formats de fichiers : PDF, documents Office, images
- Précision supérieure à des outils similaires comme PyPDF, PyMuPDF, MarkItDown
- Installation en une ligne en tant que compétence pour plus de 40 agents IA, dont Claude Code, Cursor, OpenClaw, Windsurf
Options d'installation
Installation de l'outil CLI :
npm i -g @llamaindex/liteparse
Puis utilisez :
lit parse document.pdf
lit screenshot document.pdf
Pour macOS et Linux via Homebrew :
brew tap run-llama/liteparse
brew install llamaindex-liteparse
Installation de la compétence d'agent :
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
Exemples d'utilisation
Analyse de base :
lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr
Analyse par lots :
lit batch-parse ./input-directory ./output-directory
Génération de captures d'écran (utile pour les agents LLM) :
lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
Utilisation de la bibliothèque
Installer en tant que dépendance :
npm install @llamaindex/liteparse
# ou
pnpm add @llamaindex/liteparse
Utilisation de base :
import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);
Entrée Buffer/Uint8Array (sans E/S disque) :
import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);
Détails techniques
- Système OCR flexible avec Tesseract.js intégré (configuration zéro)
- Prend en charge les serveurs HTTP pour OCR (EasyOCR, PaddleOCR, personnalisés)
- Spécification d'API OCR standard
- Plusieurs formats de sortie : JSON et Texte
- Binaire autonome sans dépendances cloud
- Prise en charge multiplateforme : Linux, macOS (Intel/ARM), Windows
Pour les documents complexes avec des tableaux denses, des mises en page multi-colonnes, des graphiques, du texte manuscrit ou des PDF scannés, les créateurs recommandent LlamaParse, leur analyseur de documents basé sur le cloud conçu pour les pipelines de production de documents.
📖 Read the full source: HN AI Agents
👀 See Also

Création d'un Espace de Travail IA Open-Source Local avec Rust et Tauri
Explorez un espace de travail IA entièrement local et open-source, construit avec Rust, Tauri et sqlite-vec, sans backend Python.

idea-reality-mcp : Le serveur MCP vérifie l'existence des outils avant que Claude n'écrive le code
Un développeur a créé un serveur MCP appelé idea-reality-mcp qui analyse les dépôts GitHub, les discussions Hacker News, les packages npm et PyPI avant que Claude n'écrive du code, renvoyant un score de 'signal de réalité' de 0 à 100 indiquant la concurrence du marché.

Serveur MCP OpenGalatea Connecte Claude aux Imprimantes 3D Prusa
OpenGalatea est un serveur MCP open-source qui permet à Claude de contrôler des imprimantes 3D Prusa via PrusaLink, autorisant des commandes en langage naturel pour rechercher sur Printables.com, découper des modèles et gérer les impressions.

OutClaw : Installateur et Gestionnaire d'Interface Graphique pour OpenClaw dans Docker
OutClaw est une application gratuite et open-source qui installe et gère des instances OpenClaw dans des conteneurs Docker. Il fournit une interface graphique étape par étape pour la configuration, la connexion aux fournisseurs d'IA et aux canaux de discussion, sans utiliser la ligne de commande.