Kreuzberg v4.7.0 добавляет интеллектуальный анализ кода для 248 языков и улучшенное извлечение разметки Markdown.

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source
Kreuzberg v4.7.0 добавляет интеллектуальный анализ кода для 248 языков и улучшенное извлечение разметки Markdown.
Ad

Теперь доступен Kreuzberg v4.7.0. Это библиотека для анализа документов на основе Rust, которая работает с Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C и WASM.

Анализ и извлечение кода

Основным нововведением является анализ и извлечение кода. Kreuzberg теперь поддерживает 248 форматов через библиотеку tree-sitter-language-pack. Это обеспечивает эффективный парсинг кода для прямой интеграции в качестве библиотеки для агентов и через MCP. Агенты могут работать с репозиториями кода, проверять pull request'ы, индексировать кодовые базы и анализировать исходные файлы.

Kreuzberg извлекает на уровне AST:

  • Функции
  • Классы
  • Импорты
  • Экспорты
  • Символы
  • Docstrings

с разбиением кода, которое учитывает границы областей видимости.

Улучшения качества Markdown

Плохое извлечение документов может привести к проблемам в дальнейшей обработке. Команда создала тестовый набор с использованием оценок Structural F1 и Text F1 для более чем 350 документов и 23 форматов, а затем оптимизировала систему на основе этих данных.

Конкретные улучшения:

  • LaTeX: улучшен с 0% до 100% SF1
  • XLSX: увеличен с 30% до 100% SF1
  • PDF таблицы SF1: вырос с 15.5% до 53.7%

Все 23 формата теперь имеют показатель SF1 выше 80%. Выходные данные, которые получают конвейеры обработки, теперь по умолчанию структурно корректны.

Ad

Другие ключевые функции

  • Новый слой рендеринга markdown и поддержка вывода HTML
  • Интеграция с OpenWebUI в качестве бэкенда для извлечения документов
  • Опции совместимости с docling-serve или прямое подключение
  • Унифицированная архитектура, где каждый экстрактор создает стандартное типизированное представление документа
  • Формат TOON - компактное кодирование документа, которое сокращает использование токенов в промптах LLM на 30-50%
  • Семантическая маркировка фрагментов
  • Вывод JSON
  • Строгая проверка конфигурации
  • Улучшенная безопасность

Доступность

Kreuzberg доступен на GitHub: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud скоро выйдет - это хостинговая версия для команд, которые хотят получить такое же качество извлечения без управления инфраструктурой. Подробнее на: https://kreuzberg.dev

Вклад приветствуется.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Миазма: Инструмент для ловли веб-сканеров ИИ с помощью отравленных данных
Инструменты

Миазма: Инструмент для ловли веб-сканеров ИИ с помощью отравленных данных

Miasma — это серверный инструмент, который отправляет отравленные обучающие данные и самоссылающиеся ссылки веб-скраперам ИИ, создавая бесконечный цикл. Он работает с минимальным потреблением памяти и может быть настроен через параметры командной строки, включая порт, хост и префикс ссылок.

OpenClawRadar
Оценка покупателя: Навык Claude для оценки поставщиков B2B с использованием диалогов с ИИ-агентами
Инструменты

Оценка покупателя: Навык Claude для оценки поставщиков B2B с использованием диалогов с ИИ-агентами

Навык Claude, который оценивает B2B-поставщиков программного обеспечения, исследуя вашу компанию, задавая вопросы по предметной области и напрямую опрашивая AI-агентов поставщиков через Salespeak Frontdoor API. Он сопоставляет заявления с независимыми источниками и создает основанные на доказательствах оценочные карточки с прозрачными уровнями верификации.

OpenClawRadar
Cortex версии 1.2 добавляет обогащение данных с помощью LLM, ответы на вопросы с цитированием и разрешение конфликтов.
Инструменты

Cortex версии 1.2 добавляет обогащение данных с помощью LLM, ответы на вопросы с цитированием и разрешение конфликтов.

Cortex, локальный слой памяти для агентов OpenClaw, выпустил версию 1.2 с включённым по умолчанию обогащением на основе LLM, командой для ответов на вопросы с цитированием, а также улучшенным устранением дубликатов и разрешением конфликтов. Теперь инструмент включает единое управление конфигурацией и предварительную фильтрацию поиска на основе намерений.

OpenClawRadar
free-claude-code добавляет поддержку GLM-5 через NVIDIA NIM, расширяется до OpenRouter и Discord
Инструменты

free-claude-code добавляет поддержку GLM-5 через NVIDIA NIM, расширяется до OpenRouter и Discord

free-claude-code теперь поддерживает GLM-5 через бесплатный тариф NVIDIA NIM (40 запросов/мин) и добавляет интеграцию с OpenRouter, поддержку Discord-бота и совместимость с локальным провайдером LMStudio. Инструмент преобразует запросы API Claude Code от Anthropic для работы с альтернативными моделями.

OpenClawRadar