Kreuzberg v4.7.0 добавляет интеллектуальный анализ кода для 248 языков и улучшенное извлечение разметки Markdown.

Теперь доступен Kreuzberg v4.7.0. Это библиотека для анализа документов на основе Rust, которая работает с Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C и WASM.
Анализ и извлечение кода
Основным нововведением является анализ и извлечение кода. Kreuzberg теперь поддерживает 248 форматов через библиотеку tree-sitter-language-pack. Это обеспечивает эффективный парсинг кода для прямой интеграции в качестве библиотеки для агентов и через MCP. Агенты могут работать с репозиториями кода, проверять pull request'ы, индексировать кодовые базы и анализировать исходные файлы.
Kreuzberg извлекает на уровне AST:
- Функции
- Классы
- Импорты
- Экспорты
- Символы
- Docstrings
с разбиением кода, которое учитывает границы областей видимости.
Улучшения качества Markdown
Плохое извлечение документов может привести к проблемам в дальнейшей обработке. Команда создала тестовый набор с использованием оценок Structural F1 и Text F1 для более чем 350 документов и 23 форматов, а затем оптимизировала систему на основе этих данных.
Конкретные улучшения:
- LaTeX: улучшен с 0% до 100% SF1
- XLSX: увеличен с 30% до 100% SF1
- PDF таблицы SF1: вырос с 15.5% до 53.7%
Все 23 формата теперь имеют показатель SF1 выше 80%. Выходные данные, которые получают конвейеры обработки, теперь по умолчанию структурно корректны.
Другие ключевые функции
- Новый слой рендеринга markdown и поддержка вывода HTML
- Интеграция с OpenWebUI в качестве бэкенда для извлечения документов
- Опции совместимости с docling-serve или прямое подключение
- Унифицированная архитектура, где каждый экстрактор создает стандартное типизированное представление документа
- Формат TOON - компактное кодирование документа, которое сокращает использование токенов в промптах LLM на 30-50%
- Семантическая маркировка фрагментов
- Вывод JSON
- Строгая проверка конфигурации
- Улучшенная безопасность
Доступность
Kreuzberg доступен на GitHub: https://github.com/kreuzberg-dev/kreuzberg
Kreuzberg Cloud скоро выйдет - это хостинговая версия для команд, которые хотят получить такое же качество извлечения без управления инфраструктурой. Подробнее на: https://kreuzberg.dev
Вклад приветствуется.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Миазма: Инструмент для ловли веб-сканеров ИИ с помощью отравленных данных
Miasma — это серверный инструмент, который отправляет отравленные обучающие данные и самоссылающиеся ссылки веб-скраперам ИИ, создавая бесконечный цикл. Он работает с минимальным потреблением памяти и может быть настроен через параметры командной строки, включая порт, хост и префикс ссылок.

Оценка покупателя: Навык Claude для оценки поставщиков B2B с использованием диалогов с ИИ-агентами
Навык Claude, который оценивает B2B-поставщиков программного обеспечения, исследуя вашу компанию, задавая вопросы по предметной области и напрямую опрашивая AI-агентов поставщиков через Salespeak Frontdoor API. Он сопоставляет заявления с независимыми источниками и создает основанные на доказательствах оценочные карточки с прозрачными уровнями верификации.

Cortex версии 1.2 добавляет обогащение данных с помощью LLM, ответы на вопросы с цитированием и разрешение конфликтов.
Cortex, локальный слой памяти для агентов OpenClaw, выпустил версию 1.2 с включённым по умолчанию обогащением на основе LLM, командой для ответов на вопросы с цитированием, а также улучшенным устранением дубликатов и разрешением конфликтов. Теперь инструмент включает единое управление конфигурацией и предварительную фильтрацию поиска на основе намерений.

free-claude-code добавляет поддержку GLM-5 через NVIDIA NIM, расширяется до OpenRouter и Discord
free-claude-code теперь поддерживает GLM-5 через бесплатный тариф NVIDIA NIM (40 запросов/мин) и добавляет интеграцию с OpenRouter, поддержку Discord-бота и совместимость с локальным провайдером LMStudio. Инструмент преобразует запросы API Claude Code от Anthropic для работы с альтернативными моделями.