LiteParse: Быстрый открытый парсер документов для AI-агентов

LiteParse — это инструмент с открытым исходным кодом для парсинга документов, ориентированный на быстрый локальный разбор с пространственным извлечением текста и ограничивающими рамками. Он работает полностью локально, без зависимостей от облачных сервисов или требований к GPU, обрабатывая сотни страниц за секунды.
Ключевые особенности
- Инструмент с открытым исходным кодом под лицензией Apache 2.0
- Пространственный парсинг текста с ограничивающими рамками для точного позиционирования
- Не зависит от локальных или передовых VLM (Vision Language Models)
- Работает на любой машине без требований к GPU
- Поддерживает несколько форматов файлов: PDF, документы Office, изображения
- Более высокая точность по сравнению с аналогичными инструментами, такими как PyPDF, PyMuPDF, MarkItDown
- Установка одной командой в качестве навыка для более чем 40 ИИ-агентов, включая Claude Code, Cursor, OpenClaw, Windsurf
Варианты установки
Установка CLI-инструмента:
npm i -g @llamaindex/liteparse
Затем используйте:
lit parse document.pdf
lit screenshot document.pdf
Для macOS и Linux через Homebrew:
brew tap run-llama/liteparse
brew install llamaindex-liteparse
Установка навыка для агента:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
Примеры использования
Базовый парсинг:
lit parse document.pdf
lit parse document.pdf --format json -o output.md
lit parse document.pdf --target-pages "1-5,10,15-20"
lit parse document.pdf --no-ocr
Пакетный парсинг:
lit batch-parse ./input-directory ./output-directory
Создание скриншотов (полезно для LLM-агентов):
lit screenshot document.pdf -o ./screenshots
lit screenshot document.pdf --target-pages "1,3,5" -o ./screenshots
lit screenshot document.pdf --dpi 300 -o ./screenshots
lit screenshot document.pdf --target-pages "1-10" -o ./screenshots
Использование как библиотеки
Установка как зависимости:
npm install @llamaindex/liteparse
# или
pnpm add @llamaindex/liteparse
Базовое использование:
import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);
Ввод через Buffer/Uint8Array (без операций ввода-вывода на диск):
import { LiteParse } from '@llamaindex/liteparse';
import { readFile } from 'fs/promises';
const parser = new LiteParse();
const pdfBytes = await readFile('document.pdf');
const result = await parser.parse(pdfBytes);
Технические детали
- Гибкая система OCR со встроенным Tesseract.js (без дополнительной настройки)
- Поддерживает HTTP-серверы для OCR (EasyOCR, PaddleOCR, пользовательские)
- Стандартная спецификация API для OCR
- Несколько выходных форматов: JSON и Text
- Автономный бинарный файл без облачных зависимостей
- Поддержка нескольких платформ: Linux, macOS (Intel/ARM), Windows
Для сложных документов с плотными таблицами, многоколоночной вёрсткой, диаграммами, рукописным текстом или отсканированными PDF создатели рекомендуют LlamaParse, их облачный парсер документов, созданный для производственных конвейеров обработки документов.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Тестирование показывает, что контекстный движок снижает затраты на ИИ-агентов для написания кода в 3 раза на платформе SWE-bench.
Тестирование 4 кодирующих агентов с использованием Claude Opus 4.5 на SWE-bench Verified показало, что контекстный движок достиг 73% успешных решений при стоимости $0.67 за задачу, в то время как другие агенты стоили до $1.98 за задачу при аналогичной или более низкой производительности.

Mind Keg MCP: Постоянная память для кода Claude и агентов, совместимых с MCP
Mind Keg MCP v0.1.1 — это сервер MCP с открытым исходным кодом, который предоставляет постоянную память для Claude Code и других совместимых с MCP агентов. Он хранит полученные знания локально в SQLite и извлекает их с помощью семантического поиска, позволяя ИИ-помощникам по программированию запоминать контекст между сессиями.

W2A — открытый протокол для агентских сенсоров: предоставление локальным агентам восприятия в реальном времени
W2A (World2Agent) — это открытый протокол, стандартизирующий уровень восприятия для AI-агентов: возможность самостоятельного хостинга, TS SDK, лицензия Apache 2.0. Он позволяет агентам получать сигналы от датчиков в реальном времени без одноразовых скриптов.

Конвейер Humanizer с открытым исходным кодом: шестишаговый Markdown-файл для постобработки AI-текста
Один Markdown-файл реализует шестиэтапный пайплайн для обнаружения и переписывания текстов, сгенерированных ИИ, с учетом канала, калибровкой голоса, шлюзами строгости и самопроверкой.