Kreuzberg v4.7.0 добавляет интеллектуальный анализ кода для 248 языков и улучшенное извлечение разметки Markdown.

✍️ OpenClawRadar📅 Опубликовано: 14 апреля 2026 г.🔗 Source

Теперь доступен Kreuzberg v4.7.0. Это библиотека для анализа документов на основе Rust, которая работает с Python, TypeScript/Node.js, Go, Ruby, Java, C#, PHP, Elixir, R, C и WASM.

Анализ и извлечение кода

Основным нововведением является анализ и извлечение кода. Kreuzberg теперь поддерживает 248 форматов через библиотеку tree-sitter-language-pack. Это обеспечивает эффективный парсинг кода для прямой интеграции в качестве библиотеки для агентов и через MCP. Агенты могут работать с репозиториями кода, проверять pull request'ы, индексировать кодовые базы и анализировать исходные файлы.

Kreuzberg извлекает на уровне AST:

Функции
Классы
Импорты
Экспорты
Символы
Docstrings

с разбиением кода, которое учитывает границы областей видимости.

Улучшения качества Markdown

Плохое извлечение документов может привести к проблемам в дальнейшей обработке. Команда создала тестовый набор с использованием оценок Structural F1 и Text F1 для более чем 350 документов и 23 форматов, а затем оптимизировала систему на основе этих данных.

Конкретные улучшения:

LaTeX: улучшен с 0% до 100% SF1
XLSX: увеличен с 30% до 100% SF1
PDF таблицы SF1: вырос с 15.5% до 53.7%

Все 23 формата теперь имеют показатель SF1 выше 80%. Выходные данные, которые получают конвейеры обработки, теперь по умолчанию структурно корректны.

Другие ключевые функции

Новый слой рендеринга markdown и поддержка вывода HTML
Интеграция с OpenWebUI в качестве бэкенда для извлечения документов
Опции совместимости с docling-serve или прямое подключение
Унифицированная архитектура, где каждый экстрактор создает стандартное типизированное представление документа
Формат TOON - компактное кодирование документа, которое сокращает использование токенов в промптах LLM на 30-50%
Семантическая маркировка фрагментов
Вывод JSON
Строгая проверка конфигурации
Улучшенная безопасность

Доступность

Kreuzberg доступен на GitHub: https://github.com/kreuzberg-dev/kreuzberg

Kreuzberg Cloud скоро выйдет - это хостинговая версия для команд, которые хотят получить такое же качество извлечения без управления инфраструктурой. Подробнее на: https://kreuzberg.dev

Вклад приветствуется.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

AutoBe: Как слабые локальные LLM исправили архитектуру генератора AI-бэкенда

AutoBe — это открытый ИИ-агент, который создаёт полноценные бэкенд-приложения с использованием TypeScript, NestJS и Prisma. Команда обнаружила, что их первоначальный 100% успех компиляции давал неподдерживаемый код, затем они перестроили систему на модульную генерацию — что уронило успех до 40% — и использовали слабые локальные LLM, такие как qwen3-30b-a3b-thinking, для отладки неоднозначностей в схемах.

27 февр. 2026 г., 05:45 UTC

OpenClawRadar

Инструменты

Контекстиум: Открытый Фреймворк Постоянного Контекста для Claude Code

Contextium — это структурированный фреймворк для git-репозиториев, который обеспечивает постоянный контекст для сессий Claude Code, используя файл CLAUDE.md в качестве маршрутизатора контекста для ленивой загрузки соответствующих markdown-файлов. Открытая версия включает шаблон с 6 примерами приложений и 27 документациями по интеграциям.

21 мар. 2026 г., 07:45 UTC

OpenClawRadar

Инструменты

AgentMeet: Инструмент для обмена контекстом между ИИ-агентами через браузерные комнаты

AgentMeet — это инструмент, который позволяет ИИ-агентам, таким как Claude, делиться контекстом друг с другом, присоединяясь к комнатам на основе браузера с помощью простых POST-запросов. Он был создан разработчиком и Claude для Claude, в настоящее время бесплатен, а открытый исходный код планируется.

18 апр. 2026 г., 09:45 UTC

OpenClawRadar

Инструменты

Phalanx CLI координирует работу нескольких ИИ-агентов для автоматизации циклов ревью кода.

Разработчик создал Phalanx — инструмент командной строки, который координирует работу ИИ-агентов от разных провайдеров: Codex занимается написанием кода, Claude Opus выполняет код-ревью, а Claude Sonnet управляет циклом. Вспомогательный инструмент Codebones сжимает репозитории в структурные карты для снижения расхода токенов.

21 мар. 2026 г., 15:45 UTC

OpenClawRadar