LiteParse: Analisador de Documentos Open Source para Agentes de IA

LiteParse é um analisador de documentos de código aberto focado em análise local rápida com extração espacial de texto e caixas delimitadoras. Ele executa totalmente localmente sem dependências de nuvem ou requisitos de GPU, processando centenas de páginas em segundos.

Principais Recursos

Ferramenta de código aberto licenciada Apache 2.0
Análise espacial de texto com caixas delimitadoras para posicionamento preciso do texto
Sem dependência de VLMs (Modelos de Linguagem Visual) locais ou de fronteira
Executa em qualquer máquina sem requisitos de GPU
Suporta múltiplos formatos de arquivo: PDFs, documentos do Office, imagens
Maior precisão do que ferramentas similares como PyPDF, PyMuPDF, MarkItDown
Instalação em uma linha como habilidade para mais de 40 agentes de IA incluindo Claude Code, Cursor, OpenClaw, Windsurf

Opções de Instalação

Instalação da Ferramenta CLI:

npm i -g @llamaindex/liteparse

Depois use:

lit parse document.pdf
lit screenshot document.pdf

Para macOS e Linux via Homebrew:

brew tap run-llama/liteparse
brew install llamaindex-liteparse

Instalação de Habilidade para Agentes:

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

Exemplos de Uso

Análise básica:

lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr

Análise em lote:

lit batch-parse ./input-directory ./output-directory

Geração de capturas de tela (útil para agentes LLM):

lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots

Uso como Biblioteca

Instale como dependência:

npm install @llamaindex/liteparse
# ou
pnpm add @llamaindex/liteparse

Uso básico:

import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);

Entrada via Buffer/Uint8Array (sem I/O em disco):

import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);

Detalhes Técnicos

Sistema OCR flexível com Tesseract.js integrado (configuração zero)
Suporta servidores HTTP para OCR (EasyOCR, PaddleOCR, personalizados)
Especificação padrão da API OCR
Múltiplos formatos de saída: JSON e Texto
Binário independente sem dependências de nuvem
Suporte multiplataforma: Linux, macOS (Intel/ARM), Windows

Para documentos complexos com tabelas densas, layouts de múltiplas colunas, gráficos, texto manuscrito ou PDFs digitalizados, os criadores recomendam LlamaParse, seu analisador de documentos baseado em nuvem construído para pipelines de documentos de produção.

📖 Leia a fonte completa: HN AI Agents

LiteParse: Analisador de Documentos Rápido e de Código Aberto para Agentes de IA

Principais Recursos

Opções de Instalação

Exemplos de Uso

Uso como Biblioteca

Detalhes Técnicos

👀 See Also

Sistema de memória de código aberto para agentes LLM alcança altas pontuações em benchmarks

OpenClaw Smart Router de Código Aberto para Seleção Automática de Modelos

Chat Saver CG: Extensão de Navegador Criada com Claude Exporta Conversas de 12 Plataformas de IA

A Habilidade ComfyUI Permite que Agentes de IA Enfileirem e Renderizem Imagens em Lote via Linguagem Natural