LiteParse: Analizador de Documentos Rápido y de Código Abierto para Agentes de IA

LiteParse es un analizador de documentos de código abierto centrado en el análisis local rápido con extracción espacial de texto y cuadros delimitadores. Se ejecuta completamente de forma local sin dependencias de la nube ni requisitos de GPU, procesando cientos de páginas en segundos.
Características Principales
- Herramienta de código abierto con licencia Apache 2.0
- Análisis espacial de texto con cuadros delimitadores para posicionamiento preciso del texto
- Sin dependencia de VLMs (Modelos de Lenguaje Visual) locales o de vanguardia
- Se ejecuta en cualquier máquina sin requisitos de GPU
- Admite múltiples formatos de archivo: PDF, documentos de Office, imágenes
- Mayor precisión que herramientas similares como PyPDF, PyMuPDF, MarkItDown
- Instalación de una línea como habilidad para más de 40 agentes de IA, incluidos Claude Code, Cursor, OpenClaw, Windsurf
Opciones de Instalación
Instalación de Herramienta CLI:
npm i -g @llamaindex/liteparse
Luego usar:
lit parse document.pdf
lit screenshot document.pdf
Para macOS y Linux vía Homebrew:
brew tap run-llama/liteparse
brew install llamaindex-liteparse
Instalación de Habilidad para Agentes:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
Ejemplos de Uso
Análisis básico:
lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr
Análisis por lotes:
lit batch-parse ./input-directory ./output-directory
Generación de capturas de pantalla (útil para agentes LLM):
lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
Uso como Biblioteca
Instalar como dependencia:
npm install @llamaindex/liteparse
# o
pnpm add @llamaindex/liteparse
Uso básico:
import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);
Entrada Buffer/Uint8Array (sin E/S de disco):
import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);
Detalles Técnicos
- Sistema OCR flexible con Tesseract.js incorporado (configuración cero)
- Admite servidores HTTP para OCR (EasyOCR, PaddleOCR, personalizados)
- Especificación estándar de API OCR
- Múltiples formatos de salida: JSON y Texto
- Binario independiente sin dependencias de la nube
- Soporte multiplataforma: Linux, macOS (Intel/ARM), Windows
Para documentos complejos con tablas densas, diseños de varias columnas, gráficos, texto manuscrito o PDF escaneados, los creadores recomiendan LlamaParse, su analizador de documentos basado en la nube diseñado para flujos de trabajo de documentos en producción.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

repo-mem: Servidor MCP de Código Abierto Agrega Memoria de Equipo Persistente a Claude Code
repo-mem es un servidor MCP de código abierto que añade memoria persistente y compartida a las sesiones de Claude Code utilizando SQLite y Git. Resuelve el aislamiento del equipo almacenando observaciones en bases de datos por usuario que se confirman en el repositorio.

companion-capture: Herramienta guarda las burbujas de habla efímeras de Claude Code
companion-capture es una herramienta de código abierto que captura los globos de diálogo del personaje compañero de Claude Code antes de que desaparezcan de la terminal. Guarda los mensajes en archivos markdown y SQLite para búsquedas, utilizando análisis del búfer de pantalla VT100 para rastrear posiciones del cursor.

Files.md: Aplicación de notas Markdown de código abierto, local-primero y con diseño compatible con LLM
Files.md es una aplicación de markdown de código abierto y centrada en el ámbito local para notas, tareas y diarios. 886 estrellas, construida en Go, funciona sin conexión, sincroniza mediante iCloud/Dropbox/servidor autoalojado o la aplicación beta alojada en files.md.

Desarrollador en solitario crea agente de IA multiplataforma para escritorio con control remoto móvil en 3 semanas, y lo distribuye a más de 40 países
Un desarrollador en solitario creó Skales, un agente de IA de escritorio nativo con más de 139 herramientas y una aplicación complementaria móvil para control remoto, todo en 3 semanas usando Claude. La aplicación funciona en macOS, Windows y Linux, es local primero y gratuita, y ya tiene usuarios activos en más de 40 países.